Двоичное кодирование текстовой
информации
Начиная с конца 60-х годов, компьютеры все
больше стали использоваться для обработки текстовой информации и в настоящее
время большая часть персональных компьютеров в мире (и наибольшее время) занято
обработкой именно текстовой информации.
Традиционно для кодирования одного символа
используется количество информации, равное 1 байту, то есть I = 1 байт = 8
битов.
Для кодирования одного символа требуется 1
байт информации.
Если рассматривать символы как возможные
события, то по формуле (2.1) можно вычислить, какое количество различных
символов можно закодировать:
N = 2I = 28 = 256.
Такое количество символов вполне
достаточно для представления текстовой информации, включая прописные и строчные
буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.
Кодирование заключается в том, что каждому
символу ставится в соответствие уникальный десятичный код от 0 до 255 или
соответствующий ему двоичный код от 00000000 до 11111111. Таким образом,
человек различает символы по их начертаниям, а компьютер - по их кодам.
При вводе в компьютер текстовой информации
происходит ее двоичное кодирование, изображение символа преобразуется в его
двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер
поступает определенная последовательность из восьми электрических импульсов
(двоичный код символа). Код символа хранится в оперативной памяти компьютера,
где занимает один байт.
В процессе вывода символа на экран
компьютера производится обратный процесс - декодирование, то есть
преобразование кода символа в его изображение.
Важно, что присвоение символу конкретного
кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33
кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод
пробела и так далее).
Коды с 33 по 127 являются
интернациональными и соответствуют символам латинского алфавита, цифрам, знакам
арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными,
то есть в национальных кодировках одному и тому же коду соответтвуют различные
символы. К сожалению, в настоящее время существуют пять различных кодовых
таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO - табл. 1.3), поэтому
тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
В настоящее время широкое распространение
получил новый международный стандарт Unicode, который отводит на каждый символ
не один байт, а два, поэтому с его помощью можно закодировать не 256 символов,
а N = 216 = = 65536 различных символов. Эту кодировку поддерживают последние
версии платформы Microsoft Windows&Office (начиная с 1997 года).
Каждая кодировка задается своей
собственной кодовой таблицей. Как видно из табл. 1.3, одному и тому же
двоичному коду в различных кодировках поставлены в соответствие различные
символы.
|
Таблица 1.3. Кодировки символов
|
|

|
Например, последовательность числовых
кодов 221, 194, 204 в кодировке СР1251 образует слово "ЭВМ", тогда
как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться
о перекодировках текстовых документов, так как это делают специальные программы-конверторы,
встроенные в приложения.
Определение числового кода символа
1. Запустить текстовый редактор MS Word 2002. Ввести команду
[Вставка-Символ...]. На экране появится диалоговая панель Символ. Центральную
часть диалогового окна занимает таблица символов для определенного шрифта (например,
Times New Roman).
Символы располагаются последовательно слева направо и построчно, начиная
с символа Пробел в левом верхнем углу и кончая буквой "я" в
правом нижнем углу таблицы.
Выбрать символ и в раскрывающемся списке из: тип кодировки.
В текстовом поле Код знака: появится его числовой код.
Ввод символов по числовому коду
1. Запустить стандартную программу Блокнот. С помощью
дополнительной цифровой клавиатуры при нажатой клавише {Alt} ввести число 0224,
отпустить клавишу {Alt}. В документе появится символ "а". Повторить
процедуру для числовых кодов от 0225 до 0233. В документе появится
последовательность из 12 символов "абвгдежзий" в кодировке Windows
(CP1251).
2. С помощью дополнительной цифровой клавиатуры при нажатой клавише
{Alt} ввести число 224, в документе появится символ "р". Повторить
процедуру для числовых кодов от 225 до 233, в документе появится последовательность
из 12 символов "рстуфхцчшщ" в кодировке MS-DOS (CP866).
Практические задания
1.29. Используя таблицу символов (MS Word), записать
последовательность десятичных числовых кодов в кодировке Windows (СР1251) для
слова "компьютер".
1.30. Используя Блокнот, определить, какое слово в кодировке
Windows (СР1251) задано последовательностью числовых кодов: 225, 224, 233,242.