starsresearch

Основные разделы компьютерных наук

Алгоритмы и структуры данных
Языки программирования
Архитектура компьютеров
Операционные системы и компьютерные сети
Разработка программного обеспечения
Базы данных и информационно-поисковые системы
Искусственный интеллект и робототехника
Компьютерная графика
Взаимодействие человека и компьютера
Вычислительная математика
Деловая информатика
Биоинформатика ***
Набор данных и их атрибутов

Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д. Атрибут - свойство, характеризующее объект. Например: цвет глаз человека, температура воды и т.д. Атрибут также называют переменной, полем таблицы, измерением, характеристикой. ***

Измерения

Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило, в соответствии с которым объектам присваиваются числа. Переменные могут являться числовыми данными либо символьными. Числовые данные, в свою очередь, могут быть дискретными и непрерывными. Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. * Сигнал называется **дискретным, если параметр сигнала может принимать лишь конечное число значений, и существен лишь в конечном числе моментов времени (возможно, периодически повторяющихся). * **Дискретными сообщениями называются такие сообщения, которые могут быть переданы с помощью дискретных сигналов. Кодом называется правило, описывающее отображение одного набора знаков в другой набор знаков (или слов); также называют и множество образов при этом отображении. Под кодированием понимается присвоение кода классификационной группировке или объекту классификации. Кодирование предназначено для формализованного описания различных аспектов данных. Обычно кодирование представляет собой процесс обозначения исходного множества объектов или сообщений набором символов заданного алфавита на основе совокупности определенных правил.

1) Порядковый метод — каждый из объектов множества кодируется с помощью текущего номера по порядку. При этом обеспечивается простота добавления новых объектов и компактность кода, однако такой код не несет информации об самом объекте.

2) Серийно-порядковый метод — кодами служат числа натурального ряда с предварительным выделением групп объектов классификации с одинаковыми признаками. Чаще всего используется для идентификации объектов в сочетании с классификационным методом.

3) Последовательный метод — в кодовом обозначении знаки на каждой ступени деления зависят от результатов разбиения на предыдущих ступенях. В результате кодовое обозначение группировки дает информацию о последовательности признаков, характеризующих эту группировку. Для выделения группировок используется иерархический метод классификации. 4) Параллельный метод — признаки классификации кодируются независимо друг от друга определенными разрядами или группой разрядов кодового обозначения. Данный способ кодирования чаще всего используется при фасетной классификации, но возможно также его прменение в иерархической классификации. Для передачи сообщений от источника к приемнику через канал коммуникации используются сигналы различной физической природы: акустические, электрические, электромагнитные (оптические, радиоволны) и другие. ***

Цифровые сигналы.

Аналоговый сигнал представляет собой непрерывный во времени и по амплитуде процесс, а его цифровое представление есть последовательность или ряд чисел, состоящих из конечного числа бит. Преобразование аналогового сигнала в цифровой состоит из двух этапов: дискретизации по времени и квантовании по амплитуде. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов, взятых через равные промежутки времени. Например, когда мы говорим, что частота дискретизации 44,1 Кгц, то это значит, что сигнал измеряется 44100 раз в течение секунды. Основной вопрос на первом этапе преобразования аналогового сигнала в цифровой (оцифровки) состоит в выборе частоты дискретизации аналогового процесса. Ответ на него дает известная теорема Котельникова-Найквиста, утверждающая, что для того, чтобы аналоговый (непрерывный по времени) сигнал, занимающий полосу частот от 0 Гц до F Гц, можно было абсолютно точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты F. Таким образом, если реальный аналоговый сигнал, который мы собираемся преобразовать в цифровую форму, содержит частотные компоненты от 0 Гц до 20 Кгц, то частота дискретизации такого сигнала должна быть не меньше, чем 40 Кгц. ***

Дискретизация.

Первый этап формирования цифрового сигнала – дискретизация. Дискретизируют сигнал в соответствующий момент времени, а затем удерживают полученное значение отсчета до момента формирования следующего отсчета. Отсчет сигнала используют для получения его цифрового представления. Причина удерживания величины отсчета может быть не совсем очевидна. «Период удерживания» дает время аналого-цифровому преобразователю (АЦП) выполнить его преобразование. Очевидно, что чем меньше интервал дискретизации и, соответственно, выше частота дискретизации, тем меньше различия между исходным сигналом и его дискретизированной копией. Это интуитивное понимание выражается следующей теоремой отсчетов (Котельников (1933 г.), Найквист (1924 г.)): ***

Квантование.

Квантование — это отображение вещественных чисел в некоторое счётное множество чисел, а именно в множество всех кратных некоторого числа Δ , называемого шагом квантования (или просто квантом). Отображение устроено так, что всякий из наших равных по длине интервалов чисел отображается в то кратное Δ , которое лежит в этом интервале (рис. 6.6). Физические соображения снова позволяют нам предполагать, что значения функции, представляющие собой значения некоторой физической величины, не могут быть как угодно велики, а ограничены сверху и снизу. Поэтому квантование переводит значения функции в конечное множество чисел, которое можно понимать как набор знаков. Таким образом, дискретизация, за которой следует квантование, даёт последовательность знаков - произвольное сообщение превращается в дискретное, представляемое словом над некоторым набором знаков. Отдельные знаки этого набора - кратные шага квантования - в свою очередь можно двоично закодировать. В технике этот метод известен под названием импульсно-кодовой модуляции. ***

Пропускная способность канала.

Полосой пропускания (пропускной способностью) оценивается количество информации, которое может быть передано по каналу. Ширина полосы пропускания измеряется в битах в секунду (бит/с) - для цифровых сигналов или в герцах (Гц) - для аналоговых сигналов, например, звуковых волн. Ширина полосы пропускания для аналоговой системы равна разности вычитания наинизшей передаваемой частоты из наивысшей. Например, ширина полосы пропускания, необходимой для передачи человеческого голоса, составляет, примерно, 2700 Гц (3000 — 300) Гц. Если рассмотреть теорему отсчетов в свете теории информации Шеннона, то каждые ts = 1/2fm секунд нужно передавать сообщение, а именно амплитудное значение. Квантование сводит дело к выбору из некоторого конечного числа n амплитудных значений, которые появляются с определенными вероятностями pi. Таким образом, log (1/ ) 2 H pi pi = Σ ⋅ - это количество информации на один Такт. *** Принято различать следующие типы передачи информации:

Прямая (межузловая) передача (point-to-point, direct): осуществляется по каналу прямой передачи данных, который непосредственно соединяет передатчик с приемником. Передача такого типа часто встречается в небольших локальных сетях, а также при использовании выделенных линий связи.
Косвенная (mediated) передача: осуществляется посредством одного или нескольких промежуточных узлов. Такая передача используется в том случае, если прямое соединение между приемником и передатчиком отсутствует. В этом случае, все передаваемые данные будут идти по одному и тому же маршруту.
Коммутируемая (switched) передача: непрямая передача, осуществляемая посредством нескольких промежуточных узлов и (возможно) - по нескольким маршрутам. Для коммутации передаваемых данных и маршрутов могут использоваться различные элементы передаваемых данных - блоки фик- сированной длины, пакеты переменной длины или целые сообщения. Широковещательная (broadcast) передача: выполняется на все, предназначенные для приёма подобной информации станции или узлы. Примером широковещательной передачи данных может служить система радиовещания.
Групповая (multicast) передача: выполняется на все узлы, находящиеся в определенном списке адресов. Примерами такой передачи могут служить рассылка сообщений подписчикам электронной конференции или электронная почта специализированных групп, рассылаемая только подписчикам.
Передача с промежуточным хранением (stored and forwarded): состоит в передаче данных на промежуточный узел, где они хранятся до получения запроса или до истечения определенного промежутка времени.
Временное мультиплексирование (TDM, time-division multiplexed): применяется в сочетании с другими способами передачи и позволяет организовать параллельную передачу данных от различных источников по одной линии связи. Блоки данных, относящиеся к различным сообщениям, чередуются и направляются в линию через определенные временные промежутки.
Частотное мультиплексирование (FDM, frequency-division multiplexed): применяется в сочетании с другими способами передачи и позволяет организовать параллельную передачу данных от различных источников. В отличие от ТDМ общая магистраль разделяется на несколько узкополосных частотных каналов, по каждому из которых пересылается информация соответствующего источника разделенных несколькими частотными диапазонами, Для передачи данных одного канала, ему выделяется несущая частота и индивидуальный диапазон частот внутри широкого канала передачи.
Мультиплексирование с разделением длин волн: длина волны и частота электромагнитных и оптических сигналов обратно пропорциональны друг другу. Мультиплексирование с разделением длин волн аналогично частотному с тем отличием, что для одновременной передачи мультиплексируемых сигналов по одному кабелю или оптоволокну используются волны различных длин. * **Закон Фехнера гласит, что субъективное ощущение пропорционально логарифму интенсивности стимула. Согласно этому закону, человеческое восприятие зрения и звука работает следующим образом: Воспринимаемая громкость/яркость пропорциональна логарифму фактической интенсивности, измеренной точным нечеловеческим инструментом. * **Пре́фиксный код в теории кодирования — код со словом переменной длины, имеющий такое свойство (выполнение условия Фано): если в код входит слово a, то для любой непустой строки b слова ab в коде не существует. Хотя префиксный код состоит из слов разной длины, эти слова можно записывать без разделительного символа. Например, код, состоящий из слов 0, 10 и 11, является префиксным, и сообщение 01001101110 можно разбить на слова единственным образом: 0 10 0 11 0 11 10 Код, состоящий из слов 0, 10, 11 и 100, префиксным не является, и то же сообщение можно трактовать несколькими способами. 0 10 0 11 0 11 10 0 100 11 0 11 10 Предпочтение префиксным кодам отдается из-за того, что они упрощают декодирование. Поскольку никакое кодовое слово не выступает в роли префикса другого, кодовое слово, с которого начинается файл, определяется однозначно, как и все последующие кодовые слова. ***

Код Хаффмана

Алгоритм сжатия данных В настоящее время используется во многих программах сжатия данных. ***

Первая теорема Шеннона, которая называется основной теоремой о кодировании при отсутствии помех, формулируется следующим образом: При отсутствии помех всегда возможен такой вариант кодирования сообщения, при котором среднее число знаков кода, приходящихся на один знак первичного алфавита, будет сколь угодно близко к отношению средних информации на знак первичного и вторичного алфавитов. * **Вторая теорема Шеннона относится к реальным каналам связи и гласит: При передаче информации по каналу с шумом всегда имеется способ кодирования, при котором сообщение будет передаваться со сколь угодной высокой достоверностью, если скорость передачи не превышает пропускной способности канала. * **Теоре́ма Коте́льникова (в англоязычной литературе — теорема Найквиста — Шеннона, теорема отсчётов) — фундаментальное утверждение в области цифровой обработки сигналов, связывающее непрерывные и дискретные сигналы и гласящее, что «любую функцию F(t) , состоящую из частот от 0 до f1 , можно непрерывно передавать с любой точностью при помощи чисел, следующих друг за другом менее чем через 1/(2f1) секунд» * **Префиксный код — код, в котором никакое кодовое слово не является префиксом какого-то другого кодового слова. Предпочтение префиксным кодам отдается из-за того, что они упрощают декодирование. Алгоритм Хаффмана — жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. * **Квантование - процесс замены реальных значений сигнала приближенными с определенной точностью.

Квантование — это отображение вещественных чисел в некоторое счётное множество чисел, а именно в множество всех кратных некоторого числа ∆ , называемого шагом квантования (квантом). * **Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени (отсчеты). H(X) – энтропия источника C - пропускная способность канала ***

Первая теорема Шеннона

Если С>H’(X), то всегда можно закодировать достаточно длинное сообщение так, чтобы оно передавалось каналом связи без задержек. Если же С<H’(X), то передача информации без задержек невозможна. В случае передачи информации с искажениями справедлива вторая теорема Шеннона. ***

Вторая теорема Шеннона

Если С>H’(X), то всегда можно закодировать достаточно длинное сообщение так, чтобы оно передавалось каналом связи без задержек и искажений с вероятностью, сколь угодно близкой к единице. Если же С<H’(X), то передача информации без задержек и искажений невозможна. ***

Теорема Котельникова-Найквиста

Для того, чтобы аналоговый сигнал, занимающий полосу частот от 0 Гц до F Гц, можно было абсолютно точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты F. ***

Первая теорема Шеннона (кодирование без шума)

Для n-кратного расширения достаточно высокой кратности средняя длина кодовой последовательности L может быть сколь угодно близкой к энтропии источника H. ***

Вторая теорема Шеннона (кодирование с шумом)

При передаче информации по каналу с шумом всегда имеется способ кодирования, при котором сообщение будет передаваться со сколь угодно высокой достоверностью, если пропускная способность канала связи С больше энтропии источника сообщений Н.