6-1. Комбинаторное определение количества информации по Хартли
Сообщение, как правило, набирается или составляется из символов или элементов: буквенного алфавита, цифр, слов или фраз, названий цвета, предметов и т. д. Обозначим общее число символов в алфавите через m. Если сообщение формируется из двух независимо и равновероятно появляющихся символов, то нетрудно видеть, что число возможных комбинаций равно m2. Действительно, зафиксировав один из двух символов сообщения (n-2) и комбинируя его со всеми возможными m символами алфавита, получим m различных сообщений. После этого фиксируем следующий символ алфавита и снова его комбинируем со всеми символами алфавита, получим еще m сообщений. С учетом предыдущего имеем 2m сообщений. Продолжив этот процесс до тех пор пока будет зафиксирован последний из m символов алфавита, получим всего mm=m2 сообщений. В общем случае, если сообщение содержит n элементов (n - длина сообщения), число возможных сообщений
N=mn.
Пример 6-1. Предположим, имеется набор из трех букв А, В, С, а сообщение формируется из двух.
Согласно формуле (6-1) число возможных сообщений будет АА, BA, СА, AB, BB, СВ, AC, ВС, CC, т. е. N=32= 9.
Однако нетрудно видеть, что выражение (6-1) неудобно брать в качестве меры количества информации, так как, во-первых, если все множество или ансамбль возможных сообщений состоит из одного сообщения (N-1), то информация в нем должна отсутствовать, во-вторых, если есть два независимых источника сообщений, каждый из которых имеет в своем ансамбле N1 и N2 сообщений, то общее число возможных сообщений от этих двух источников
N=N1N2,
т. е. является произведением, тогда как количества информации должны складываться, и общее количество должно быть прямо пропорционально числу символов в сообщении. Поэтому за количество информации берут логарифм числа возможных сообщений
I=logN=n logm. (6-2)
По существу при выводе этого соотношения считалось, что появление символов в сообщении равновероятно и они статистически независимы. Чаще бывает наоборот. Так, в русском языке одни .буквы встречаются чаще, другие - реже, после согласных, как правило, следуют гласные. Очевидно, в этом случае информации будет меньше.