starsresearch

Назад ***

Основные разделы компьютерных наук

  1. Алгоритмы и структуры данных
  2. Языки программирования
  3. Архитектура компьютеров
  4. Операционные системы и компьютерные сети
  5. Разработка программного обеспечения
  6. Базы данных и информационно-поисковые системы
  7. Искусственный интеллект и робототехника
  8. Компьютерная графика
  9. Взаимодействие человека и компьютера
  10. Вычислительная математика
  11. Деловая информатика
  12. Биоинформатика ***

    Набор данных и их атрибутов

    Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д. Атрибут - свойство, характеризующее объект. Например: цвет глаз человека, температура воды и т.д. Атрибут также называют переменной, полем таблицы, измерением, характеристикой. ***

    Измерения

    Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило, в соответствии с которым объектам присваиваются числа. Переменные могут являться числовыми данными либо символьными. Числовые данные, в свою очередь, могут быть дискретными и непрерывными. Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. * Сигнал называется **дискретным, если параметр сигнала может принимать лишь конечное число значений, и существен лишь в конечном числе моментов времени (возможно, периодически повторяющихся). * **Дискретными сообщениями называются такие сообщения, которые могут быть переданы с помощью дискретных сигналов. Кодом называется правило, описывающее отображение одного набора знаков в другой набор знаков (или слов); также называют и множество образов при этом отображении. Под кодированием понимается присвоение кода классификационной группировке или объекту классификации. Кодирование предназначено для формализованного описания различных аспектов данных. Обычно кодирование представляет собой процесс обозначения исходного множества объектов или сообщений набором символов заданного алфавита на основе совокупности определенных правил.

1) Порядковый метод — каждый из объектов множества кодируется с помощью текущего номера по порядку. При этом обеспечивается простота добавления новых объектов и компактность кода, однако такой код не несет информации об самом объекте.

2) Серийно-порядковый метод — кодами служат числа натурального ряда с предварительным выделением групп объектов классификации с одинаковыми признаками. Чаще всего используется для идентификации объектов в сочетании с классификационным методом.

3) Последовательный метод — в кодовом обозначении знаки на каждой ступени деления зависят от результатов разбиения на предыдущих ступенях. В результате кодовое обозначение группировки дает информацию о последовательности признаков, характеризующих эту группировку. Для выделения группировок используется иерархический метод классификации. 4) Параллельный метод — признаки классификации кодируются независимо друг от друга определенными разрядами или группой разрядов кодового обозначения. Данный способ кодирования чаще всего используется при фасетной классификации, но возможно также его прменение в иерархической классификации. Для передачи сообщений от источника к приемнику через канал коммуникации используются сигналы различной физической природы: акустические, электрические, электромагнитные (оптические, радиоволны) и другие. ***

Цифровые сигналы.

Аналоговый сигнал представляет собой непрерывный во времени и по амплитуде процесс, а его цифровое представление есть последовательность или ряд чисел, состоящих из конечного числа бит. Преобразование аналогового сигнала в цифровой состоит из двух этапов: дискретизации по времени и квантовании по амплитуде. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов, взятых через равные промежутки времени. Например, когда мы говорим, что частота дискретизации 44,1 Кгц, то это значит, что сигнал измеряется 44100 раз в течение секунды. Основной вопрос на первом этапе преобразования аналогового сигнала в цифровой (оцифровки) состоит в выборе частоты дискретизации аналогового процесса. Ответ на него дает известная теорема Котельникова-Найквиста, утверждающая, что для того, чтобы аналоговый (непрерывный по времени) сигнал, занимающий полосу частот от 0 Гц до F Гц, можно было абсолютно точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты F. Таким образом, если реальный аналоговый сигнал, который мы собираемся преобразовать в цифровую форму, содержит частотные компоненты от 0 Гц до 20 Кгц, то частота дискретизации такого сигнала должна быть не меньше, чем 40 Кгц. ***

Дискретизация.

Первый этап формирования цифрового сигнала – дискретизация. Дискретизируют сигнал в соответствующий момент времени, а затем удерживают полученное значение отсчета до момента формирования следующего отсчета. Отсчет сигнала используют для получения его цифрового представления. Причина удерживания величины отсчета может быть не совсем очевидна. «Период удерживания» дает время аналого-цифровому преобразователю (АЦП) выполнить его преобразование. Очевидно, что чем меньше интервал дискретизации и, соответственно, выше частота дискретизации, тем меньше различия между исходным сигналом и его дискретизированной копией. Это интуитивное понимание выражается следующей теоремой отсчетов (Котельников (1933 г.), Найквист (1924 г.)): ***

Квантование.

Квантование — это отображение вещественных чисел в некоторое счётное множество чисел, а именно в множество всех кратных некоторого числа Δ , называемого шагом квантования (или просто квантом). Отображение устроено так, что всякий из наших равных по длине интервалов чисел отображается в то кратное Δ , которое лежит в этом интервале (рис. 6.6). Физические соображения снова позволяют нам предполагать, что значения функции, представляющие собой значения некоторой физической величины, не могут быть как угодно велики, а ограничены сверху и снизу. Поэтому квантование переводит значения функции в конечное множество чисел, которое можно понимать как набор знаков. Таким образом, дискретизация, за которой следует квантование, даёт последовательность знаков - произвольное сообщение превращается в дискретное, представляемое словом над некоторым набором знаков. Отдельные знаки этого набора - кратные шага квантования - в свою очередь можно двоично закодировать. В технике этот метод известен под названием импульсно-кодовой модуляции. ***

Пропускная способность канала.

Полосой пропускания (пропускной способностью) оценивается количество информации, которое может быть передано по каналу. Ширина полосы пропускания измеряется в битах в секунду (бит/с) - для цифровых сигналов или в герцах (Гц) - для аналоговых сигналов, например, звуковых волн. Ширина полосы пропускания для аналоговой системы равна разности вычитания наинизшей передаваемой частоты из наивысшей. Например, ширина полосы пропускания, необходимой для передачи человеческого голоса, составляет, примерно, 2700 Гц (3000 — 300) Гц. Если рассмотреть теорему отсчетов в свете теории информации Шеннона, то каждые ts = 1/2fm секунд нужно передавать сообщение, а именно амплитудное значение. Квантование сводит дело к выбору из некоторого конечного числа n амплитудных значений, которые появляются с определенными вероятностями pi. Таким образом, log (1/ ) 2 H pi pi = Σ ⋅ - это количество информации на один Такт. *** Принято различать следующие типы передачи информации:

Первая теорема Шеннона, которая называется основной теоремой о кодировании при отсутствии помех, формулируется следующим образом: При отсутствии помех всегда возможен такой вариант кодирования сообщения, при котором среднее число знаков кода, приходящихся на один знак первичного алфавита, будет сколь угодно близко к отношению средних информации на знак первичного и вторичного алфавитов. * **Вторая теорема Шеннона относится к реальным каналам связи и гласит: При передаче информации по каналу с шумом всегда имеется способ кодирования, при котором сообщение будет передаваться со сколь угодной высокой достоверностью, если скорость передачи не превышает пропускной способности канала. * **Теоре́ма Коте́льникова (в англоязычной литературе — теорема Найквиста — Шеннона, теорема отсчётов) — фундаментальное утверждение в области цифровой обработки сигналов, связывающее непрерывные и дискретные сигналы и гласящее, что «любую функцию F(t) , состоящую из частот от 0 до f1 , можно непрерывно передавать с любой точностью при помощи чисел, следующих друг за другом менее чем через 1/(2f1) секунд» * **Префиксный код — код, в котором никакое кодовое слово не является префиксом какого-то другого кодового слова. Предпочтение префиксным кодам отдается из-за того, что они упрощают декодирование. Алгоритм Хаффмана — жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. * **Квантование - процесс замены реальных значений сигнала приближенными с определенной точностью.

Квантование — это отображение вещественных чисел в некоторое счётное множество чисел, а именно в множество всех кратных некоторого числа ∆ , называемого шагом квантования (квантом). * **Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени (отсчеты). H(X) – энтропия источника C - пропускная способность канала ***

Первая теорема Шеннона

Если С>H’(X), то всегда можно закодировать достаточно длинное сообщение так, чтобы оно передавалось каналом связи без задержек. Если же С<H’(X), то передача информации без задержек невозможна. В случае передачи информации с искажениями справедлива вторая теорема Шеннона. ***

Вторая теорема Шеннона

Если С>H’(X), то всегда можно закодировать достаточно длинное сообщение так, чтобы оно передавалось каналом связи без задержек и искажений с вероятностью, сколь угодно близкой к единице. Если же С<H’(X), то передача информации без задержек и искажений невозможна. ***

Теорема Котельникова-Найквиста

Для того, чтобы аналоговый сигнал, занимающий полосу частот от 0 Гц до F Гц, можно было абсолютно точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты F. ***

Первая теорема Шеннона (кодирование без шума)

Для n-кратного расширения достаточно высокой кратности средняя длина кодовой последовательности L может быть сколь угодно близкой к энтропии источника H. ***

Вторая теорема Шеннона (кодирование с шумом)

При передаче информации по каналу с шумом всегда имеется способ кодирования, при котором сообщение будет передаваться со сколь угодно высокой достоверностью, если пропускная способность канала связи С больше энтропии источника сообщений Н.