Данни и кодиране

 

1. Какво представлява кодирането

Кодирането -  това е представяне на сведенията в един или друг стандартен вид. Една и съща  информация може да бъде представена (закодирана) в няколко форми. C появата на компютрите възниква необходимостта да се кодира всякакъв вид информация. Грандиозните  достижения на човека - писмеността и математиката - не са нищо друго освен система за кодиране на  реч и числова информация.  Информацията никога не се появява в чист вид, тя винаги е представена като закодирана.

 

"Легенда" на закодирани      съобщения – пътни знаци

Китайски йероглифи

Ноти

Фигура 1. Примери за закодирана информация

Една от основните задачи при кодирането на информацията е създаване на методи за бързо и надеждно предаване на информацията. По същество теорията на кодирането не се занимава нито със самия процес на предаване на информацията, нито със смисъла носен от тази информация. Информацията по своята същност представлява единство на форма и съдържание. Освен кодирани, данните когато отразяват важна информация, се налага да бъдат и шифрирани. Това е необходимо, за да се премахне възможноста за неоторизиран достъп до тях при предаването им по комуникационните линии.

В най-общ смисъл кодът е система от условни знаци (символи), служеща за предаване, обработка и запазване на информацията. Кодирането е пък операция за представяне на дадено съобщение в определен код или за преобразуване на съобщения от един код в друг. Това представяне или преобразуване става по определени закони. Термините код и кодиране произлизат от латинската дума codex – сборник от закони.

Под кодиране на информацията обикновенно се разбира нейното засекретяване, представянето и в такъв вид, че за неупълномощени лица да бъде непонятен вложения в нея смисъл. Днес с това понятие обозначаваме няколко, доста различаващи се една от друга области. Обща за тези области е технологията, която не зависи от конкретната цел. Тази технология се състои в замяна на думи от някаква азбука, по някакви правила, с думи над друга азбука ( в общия случай различна от първата). Същественото е, че задължително трябва да имаме възможност за възстановяване на първоначалната дума.

Тази известната още от дълбока древност област се нарича криптография. Освен шифри, в криптографията се използват и така наречените криптографски кодове. По същество кодът се базира на речник (кодова книга), в който думи, словосъчетания или цели съобщения се заместват със съответни несвързани и неразбираеми изрази или знаци, образуващи криптографски кодограми. (процесът на получаване на кодограмите се нарича – криптографско кодиране, а обратния процес криптографско декодиране).

Друга изключително важна област от кодирането е компресията на информацията – представянето и в колкото се може по – компактен вид.

И така накратко казано кодирането на информацията може да се раздели на три вида :

ü     Двоично кодиране (системно) – кодиране на информацията с цел представянето и във вид по - удобен за обработка, съхранение, предаване.

ü     Шумозащитно кодиране – кодиране на информацията с цел с запазването и при предаването в каналите за връзка.

ü     Криптографско кодиране  при него информацията се преобразува във формат, който не може да бъде разбран лесно от неоторизирани хора.

 

2. Дискретна информация и дискредитиране

 

Дискретна е информацията, представяна чрез числа, текстове, нотни записи или дискретна е информацията която се изразява с краен брой знакове от предварително зададено множество.

Като синоним на дискретна информация се все по-често се употребява словосъчетанието «цифрова информация».

Непрекъсната информация е музиката, кардиограмата, постоянно регистрираната температура в определена точка.

Дискретната информация има  две много ценни свойства

Ø     тя е устойчива към външни влияния, може да се предава на разстояние и да се съхранява без изменение.

Ø     удобна е за автоматична обработка

Процесът на преобразуване на непрекъснатата информация в дискретна се нарича дискретизация.

Всяка непрекъсната информация може да се представи чрез дискретна с предварително зададена точност. Следните две фигури показват как се дискретизират изображенията на крива линия и слон с различна точност.Колкото по-голяма е точността на съответната, толкова по-голям е обемът на съответната информация.

 

3. Данни

 

Дискретната информация представена по определени правила се наричат данни. Данните формират съдържанието на всяко (дискретно) съобщение. Основни данни са текстовете и числата. Те са примери за дискретно представяне на информацията. Текстовите и числовите данни се формират с използване на :

Ø     знаци на използваната азбука

Ø     правила за съчетаване на знаците – синтактични правила

Ø     правила за извличане на информация от даден запис – семантични правила

Пример : Двоично числова данна 1012

1.     Азбука (използвани знаци) 0 и 1 ;

2.     Синтактично правило – данните са представени с редица от 1 и 0 започващи с 1 ;

3.     Семантично правило - 1012 = 1.22+0. 21+1. 20 м

           

 

4. Двоично кодиране и измерване на информацията

 

Компютрите са изобретени доста отдавна. В тези времена електрониката не е била на сегашното равнище.  Първите компютри са били лампови и са заемали твърде много място. За да може да се управлява такава машина е бил нужен голям обслужващ персонал.

Още тогава е бил заложен принципа на работа на компютъра, който действа и до днес. А именно, данните се предават с помощта на някакъв сигнал по метода «има сигнал или няма сигнал» или по-друг начин казано «включено или изключено», или това е т.н. двузначна логика.

Така се е появил «бита» bit. Бит това е единица информация, която може да приема значение или 0, или 1, т.е. «включено или изключено».

1 bit се нарича количеството информация, определящо кое от две равновероятни събития се е случило. Това е най-малката единица за информация. 1 bit е например информацията, определяща дали при хвърляне на монета се паднал герб или лице. Произлиза от латинското binary digit (двоична цифра).

Осем бита се обединяват  в един байт, т.е. един байт е равен на 8 бита. Защо именно 8 ? Понеже първите компютри са били осем разрядни и са могли да работят едновременно само  с 8 бита. В голяма част от съвременните компютри за съхранение на символи се заделя 8 - разрядна клетка (байт). В 1 байт може да се запишат 256 различни двоични числа – това позволява да се закодират 256 различни символи. Кода на символите се задава с помощта на таблица (за всеки код се указва съответствуващия му символ). По – голямата единица за информация е 1 byte(байт) = 8 bit или байта е информация за изхода на едно от 28 = 256 равновероятни събития.

ПРОИЗВОДНИ ЕДИНИЦИ ЗА ИЗМЕРВАНЕ НА ИНФОРМАЦИЯТА

 

Килобит

1 Кбит = 1024 бита

Мегабит

1 Мбит = 1024 Кбита = 1 048 576 бита

Гигабит

1 Гбит = 1024 Мбита

Терабит

1 Тбит = 1024 Мбита

Килобайт

1 Кбайт = 1024 байта

Мегабайт

1 Мбайт = 1024 Кбайта = 1 048 576 байта

 

5. Представяне на цветовете в цифров вид

С компютърна графика ние се срещаме на всяка крачка. И не само в компютрите. Практически всяка произволна съвременна книга  може да се направи на компютър. Нека погледнем екрана на компютъра през увеличително стъкло. В зависимост от марката и модела на техниката ние виждаме или множество разноцветни правоъгълници, или множество разноцветни кръгчета. И едните, и другите се групират по три броя, при това един цвят, но различни оттенъци. Те се наричат ПИКСЕЛИ (от английски PICture's ELement). Пикселите биват само три цвята - зелен, син и червен. Другите цветове се образуват с помоща на смесване на цветовете.
Нека разгледаме най – простия случай – всяко късче пиксел може или да свети  (1), или да  не свети (0). Тогава ние получаваме следния набор от цветове :

Червен

Зелен

Син

наименование

цвят

0

0

0

Черен

 

0

1

0

Зелен

 

0

0

1

Син

 

1

0

0

Червен

 

0

1

1

Тюркоаз

 

1

1

0

Жълт

 

1

0

1

Малиново

 

1

1

1

Бял

 

 

Таблица 4. Представяне на цветовете в цифров вид

 

И така, всяко графическо изображение на екрана може да се закодира с помощта на числа, като се знае колко такива има във всеки пиксел/точка/  за червен, зелен или син цвят.

 

6. Кодиране на звуци

По своята природа звуците се  явяват непрекъснати сигнали. За кодиране на  звук е необходимо този непрекъснат сигнал да се превърне в последователност от нули и единици (дискретизация). При работа със стереозвуци това се изпълвява отделно и независимо за левия и десния канал. На качеството на  възпроизвеждане на закодирания  звук влияят основно два параметъра : честотата на  дискретизация и нейното разрешение – размера на клетките, отвежданото за запис значение на амплитудата.

7. Шумозащитно  кодиране

Друга област на кодирането, интересът към която не намалява, независимо от качествения скок в използваните технологии за пренос на информация, е шумозащитното кодиране. Каналите за пренасяне на данни внасят нежелани изменения в обработваната информация – те “шумят”. В повече от случайте шумът в получените данни е напълно недопустим – например при предаване на изпълними кодове на компютърни програми, при които незначителни изменения могат да доведат до катастрофални последици. Но дори и в области, където абсолютната точност на възстановяване на първоначалната информация не е жизнено важна, шумозащитното кодиране допринася за по-високо качество на пренасяне на информацията.

 

Фигура 4. Шумозащитно  кодиране

 

Целта на шумозащитното кодиране може да бъде създаването на бързи, удобни и защитени от странични шумове съобщителни връзки. На практика се използва най-често двоично кодиране, където по съобщителния канал се изпращат и различават само два вида сигнали. Единия сигнал ще означаваме  с цифрата 0, а другия – с 1. Дискретното двоично кодиране се използва особено много в съвременните компютърни системи, като почти измести аналоговото кодиране и в други области на техниката, като позволява да се конструират евтини и надеждни устройства с превъзходни качества.

 

8. Криптографско  кодиране

 

Другия вид кодиране е криптографското кодиране. При него информацията се преобразува във формат, който не може да бъде разбран лесно от неоторизирани хора. Декодирането е обратната трансформация - от кодиран в разбираем формат. Има прости алгоритми за криптиране, които само разменят местата на буквите с цифри, а по-сложните методи, които се основават на "интелигентни" алгоритми - трансформират информацията в цифров вид и ако желаете да възстановите съдържанието на кодираното съобщение се нуждаете от декодиращ ключ.

Освен шифри, в криптографията се използват и така наречените криптографски кодове. По същество кодът се базира на речник (кодова книга), в който думи, словосъчетания или цели съобщения се заместват със съответни несвързани и неразбираеми изрази или знаци, образуващи криптографски кодограми (процесът на получаване на кодограмите се нарича – криптографско кодиране, а обратния процес криптографско декодиране).

 

9. Код на Морз

 

      Един от най-старите известни кодове е кодът на Морз, широко използван в миналото при телеграфните и радиотелеграфните връзки. Той бил създаден от Самуел Морз, изобретателят на телеграфа. С помоща на този код на всяка буква от азбуката се съпоставя редица от точки и тирета в следния вид :

 

Буква

Кодова дума

Буква

  Кодова дума

Буква

Кодова дума

A

. –

J

. – – –

S

B

– . . .

K

– . –

T

. . .

C

– . – .

L

. – . .

U

. . –

D

– . .

M

– –

V

. . . –

E

.

N

– .

W

. – –

F

. . – .

O

– – –

X

– . . –

G

– – .

P

. – – .

Y

– . – –

H

. . . .

Q

– – . –

Z

– – . .

I

. .

R

. – .

 

 

 

Таблица 5. Код на Морз

 

      На тези букви, които са били в по-голямо количество, той е съпоставил по – къси кодови думи.

         Също тъй лесно се вижда, че ако разглеждаме кода на Морз като двоичен код, то той не е разделим. А знаем, че един код се нарича разделим, когато всяка дума  над азбуката В се представя най-много по един начин като конкатенация на кодовите думи (конкатенация - долепване).

Така например съобщението (. . – .) може да се декодира като IN(. . , – .) или F(. . – .). Успешното използване на кода на Морз се дължи на това, че той всъщност не е двоичен, а троичен. Използва се още един символ – интервалът. Точките и тиретата в една кодова дума са разделени с промеждутък от време, равен на един интервал, кодовите думи са разделени с два интервала, а думите от изходното съобщение – шест интервала.