НОВОСТИ БИБЛИОТЕКА ЮМОР КАРТА САЙТА ССЫЛКИ О САЙТЕ

4. Коды и множества совпадения

4.1. Основные свойства кодов

В настоящей главе перед нами стоят две задачи. Во-первых, мы хотим совершить краткий экскурс в теорию кодов. Эта теория дала ряд красивых результатов, применимых к различным разделам теории языков. Во-вторых, мы хотим обсудить некоторые недавно введенные понятия, тесно связанные с теорией кодов. Эти понятия нам потребуются в гл. 5 и 6. Подчеркнем, что мы не будем обсуждать так называемые коды с исправлением ошибок, а будем иметь дело исключительно с алгебраической теорией кодов, обычно рассматриваемой как часть теории полугрупп¹.

¹ (Более глубоко и детально ознакомиться с различными вопросами алфавитного кодирования и смежными проблемами теории конечных автоматов читатель может по работам [Л1^*], [Л2^*], [Мар2^*].- Прим. перев.)

На интуитивном уровне код¹ можно определить как такое множество слов, что любое произведение этих слов может быть "декодировано" только одним способом. Рассмотрим, например, множество слов

{a, bb, aab, bab).(4.1)

¹ (В отечественной литературе в этом смысле часто употребляется термин "кодовое множество".- Прим. перев. )

Можно закодировать этими словами символы 0, 1, 2, 3 и "морфически" распространить это кодирование на все слова в алфавите {0,1,2,3}. Так, кодом слова 012230 будет слово

abbaabaabbaba.

Гарантией однозначности декодирования служит тот факт, что каждое слово в алфавите {a, b} может быть представлено в виде произведения слов (4.1) не более чем одним способом. Этот факт легко установить, читая слова в алфавите {a, b) справа налево: каждое закодированное слово должно кончаться на одно из слов (4.1). Таким способом символы 0, 1, 2, 3 можно получить один за другим с правого конца. Это означает, что (4.1) является кодом.

С другой стороны, множество {a, ab, ba) не является кодом. Например, слово aba декодируется двумя разными способами: aba =(ab)a = a(ba).

Определение. Непустой язык C в алфавите ∑ называется кодом, если для любых слов x_i₁, x_i₂, ..., x_{i_m}, x_j₁, ..., x_{j_n} из C, таких, что

x_i₁x_i₂ ... x_{i_m} = x_j₁ ... x_{j_n},(4.2)

имеет место x_i₁ = x_j₁. ▫

Если C является кодом, то из (4.2), очевидно, следует, что m = n и x_{i_t} = x_{j_t} при t = 1, ..., m. Таким образом, каждое слово в C^* единственным образом декодируется как произведение слов из C. Очевидно также, что в код не может входить пустое слово и что непустое подмножество кода также является кодом. Будем считать, что алфавит ∑ содержит не менее двух символов, так как однобуквенный алфавит тривиален с точки зрения кодирования. Теперь установим два довольно простых характеристических свойства кодов.

Лемма 4.1. Непустой язык C над алфавитом ∑ является кодом тогда и только тогда, когда существует множество символов ∑₁ и биекция ∑₁ на C, которую можно продолжить до инъективного морфизма ∑₁^* в ∑^*.

Доказательство. Прежде всего заметим, что множество символов ∑₁ может быть бесконечным (тем не менее понятно, что означает при этом ∑₁^*).

Рассмотрим часть "тогда" утверждения леммы. Предположим, что существуют ∑₁ и биекция φ: ∑₁→C, удовлетворяющие условию продолжения. Чтобы доказать, что C представляет собой код, рассмотрим произвольные слова x_i₁, ..., x_{i_m}, x_j₁ ..., x_{j_n} из C, удовлетворяющие (4.2). Обозначая φ^-1 (x_{i_t}) = a_{i_t} (соответственно φ^-1 (x_{j_t}) = a_{j_t} получаем

φ (a_i ... a_{i_m}) = x_i₁ ... x_{i_m} = x_j₁ ... x_{j_n} = φ(a_j₁ ... a_{j_n}).

(Здесь φ уже продолжено на ∑₁^*.) Тот факт, что отображение φ инъективно, влечет равенство

a_i₁ ... a_{i_m} = a_j₁ ... a_{j_n}.

Следовательно, a_i₁ = a_j₁, откуда x_i₁ = φ(a_i₁) = φ(a_j₁) = x_j₁, и значит, С является кодом.

Рассмотрим часть "только тогда". Предположим, что C есть код. Пусть ∑₁ - множество символов той же мощности, что C, а φ: ∑₁→C - биекция, где соответствующие элементы обозначены одинаковыми нижними индексами. Это отображение естественным образом продолжается до морфизма ∑₁^* в ∑^*. Нам еще надо доказать, что это продолжение φ инъективно.

Допустим противное: существуют элементы ∑₁, удовлетворяющие условиям

φ(a_i₁ ... a_{i_m}) = φ(a_j₁ ... a_{j_n}), a_i₁ ... a_{i_m} ≠ a_j₁ ... a_{j_n}.(4.3)

Без потери общности можно предположить, что m в (4.3) является наименьшим из возможных: (4.3) не выполняется ни для какого m₁<m. Следовательно, a_i₁ ≠ a_j₁. (При a_i₁ = a_j₁ мы получили бы

φ(a_i₂ ... a_{i_m}) = φ(a_j₂ ... a_{j_n}), a_i₂ ... a_{i_m} ≠ a_j₂ ... a_{j_n},

что противоречит минимальности m.) Таким образом, мы имеем

φ(a_i₁ ... a_{i_m}) = x_i₁ ... x_{i_m}) = φ(a_j₁ ... a_{j_n} = x_j₁ ... x_{j_n},(4.4)

и a_i₁ ≠a_j₁. Так как ф есть биекция, то последнее неравенство влечет x_i₁ ≠ x_j₁, а это с учетом (4.4) противоречит предположению, что C является кодом. Отсюда следует инъективность продолжения отображения φ. ▫

Следующий результат известен под названием критерия Шютценберже. Будем говорить, что язык L катенативно-независим, если никакое слово w из L нельзя представить как произведение

w = w₁ ... w_n, где n≥2 и каждое w₁∈L.

Лемма 4.2. Катенативно-независимый непустой язык C над ∑ является кодом тогда и только тогда, когда для любого слова w в алфавите ∑ из того, что оба языка C^*w и wC^* пересекаются с C^*, следует, что w принадлежит C^*.

Доказательство. Сначала рассмотрим часть "тогда" утверждения леммы. Предположив, что C удовлетворяет условию леммы, мы должны показать, что C является кодом. Допустим противное: в C существуют такие слова x_v, что

x_i₁ ... x_{i_m} = x_j₁ ... x_{j_n}, но x_i₁≠x_j₁.(4.5)

Согласно (4.5), одно из слов x_i₁ и x_j₁ является префиксом другого. Без потери общности можно считать, что

x_j₁ = x_i₁y.(4.6)

Согласно (4.5) и (4.6), языки C^*y и C^* (соответственно yC^* и C^*) пересекаются, имея общий элемент x_j₁ (соответственно x_i₂ ... x_{i_m}). (Заметим, что из (4.5) и (4.6) следует, что m≥2.) Поскольку С удовлетворяет условию о пересечениях, получаем, что y принадлежит C^*. Однако в силу (4.6) это заключение противоречит допущению о катенативной независимости языка.

Теперь рассмотрим часть "только тогда". Предположим, что С является кодом, и докажем от противного, что выполняется условие о пересечениях. Итак, предположим, что это условие не выполнено, т. е. что в C найдутся элементы x_v, а в C^* - элементы y_v и такое слово w∉C^*, что

x_i₁ ... x_{i_m}w = x_j₁ ... x_{j_n} и wy₁ = y₂.(4.7)

Снова предполагая минимальность m, заключаем, что x_i₁ ≠ x_j₁ (В противном случае мы получили бы равенство вида (4.7) с меньшим m.) Теперь мы получаем, что

x_i₁ ... x_{i_m}wy₁ = x_j₁ ... x_{j_n}y₁ = x_i₁ ... x_{i_m}y₂, x_i₁≠x_j₁,

это противоречит предположению о том, что C есть код. ▫

Условие леммы 4.2 можно сформулировать более компактно: для каждого слова w из ∑^*

C^*w∩wC^*∩C^* влечет w ∈C^*.(4.8)

Очевидно, что если все три множества C^*w, wC^* и C^* имеют общий элемент, то пересекаются и пары множеств C^*w, C^* и wC^*, C^*. Обратно, если wx₁ = x₂ и x₃w = x₄, где x₁, x₂, x₃, x₄∈C^*, то wx₁x₄ = x₂x₄ = x₂x₃w, откуда следует, что пересекаются все три множества. Заметим, однако, что одно лишь условие (4.8) (без допущения о катенативной независимости множества C) не гарантирует еще, что C является кодом.

Леммы 4.1 и 4.2 сами по себе не дают нам эффективного метода, позволяющего определить, является ли данный язык кодом, однако такие алгоритмы (для конечных языков) существуют. В сущности результаты гл. 2 приводят к следующему алгоритму: надо проверить, пусто ли множество x₁C^*∩x₂C^* для каждой пары (x₁, x₂) различных элементов из С. Старейшим является алгоритм, вытекающий из следующей теоремы и в первоначальном варианте принадлежащий Сардинасу и Паттерсону [SarP].

Теорема 4.3. Пусть C - непустой язык над ∑. Определим индуктивно языки C₀, C₁, C₂, ... над ∑, полагая

C₀ = C,

C_i+1 = {w∈∑⁺|(∃x∈C)(∃y∈C_i)yw = x или xw = y}.

Язык C является кодом тогда и только тогда, когда C_i∩C = ∅ для каждого i≥1.

Прежде чем перейти к доказательству теоремы, заметим, что в случае конечного языка C длина каждого слова в каждом C_i не превосходит длину самого длинного слова в C. Следовательно, существует лишь конечное число различных языков C_i, и мы действительно получаем алгоритм, определяющий, является ли множество C кодом (см. также упр. 1). Например, выберем в качестве С множество (4.1). В этом случае ;

C₁ = {ab}, C₂ = {b}, C₃ = {b, ab} = C₄ = C₅ ... .

Поскольку для каждого i≥1 C_i∩C = ∅, то C является кодом. С другой стороны, полагая C = {a, ab, ba}, получаем C₁ = {b}, C₂ = {a}. Так как C₂∩C ≠ ∅, то C не является кодом.

Доказательство. Сначала рассмотрим часть "тогда" утверждения теоремы. Покажем, что если C не является кодом, то одно из множеств C^* пересекает C.

Так как C не является кодом, то в C найдутся элементы x_v, удовлетворяющие (4.5). Ситуацию можно изобразить так:

Идея состоит в том, что слово x_i₁ ... x_{i_m} записывается на верхней прямой: отрезок PP₁ содержит x_i₁, отрезок P₁P₂ содержит x_i₂ и т. д. Аналогично слово x_j₁, ... x_{j_n}, записывается на нижней прямой. Поскольку x_i₁ ≠ x_j₁, точки P₁ и P₁' оказываются на разных вертикалях. (На схеме принято, что x_j₁ является собственным префиксом x_i₁.) Снова предполагая минимальность m в (4.5), мы можем заключить, что ни одна из точек верхней прямой (за исключением первой и последней точек) не лежит на одной вертикали с точкой нижней прямой.

Напомним, что слова из C_i+1 получаются либо стиранием префикса, принадлежащего C^*, в некотором слове из C, либо стиранием некоторого префикса, принадлежащего C, в слове из C_i. Таким образом, на нашей схеме слово в отрезке P₁'P₁ принадлежит C₁, слово в отрезке P'₂P₂ принадлежит C₂, слово в отрезке P₁P'₃ принадлежит C₃, а слово в отрезке P₂P'₃ принадлежит C₄. Рассуждая далее таким же образом, мы заключаем, что либо x_{j_n} принадлежит одному из множеств C_i (это имеет место в описанной выше ситуации), либо x_{i_m} принадлежит некоторому множеству C_i (последнее имеет место в случае, когда P_m-1 ближе к общей концевой точке, чем P'_n-1). В любом случае одно из множеств C, пересекает C.

Рассмотрим теперь часть "только тогда". Предположим, что С является кодом. Прежде всего индукцией по i докажем, что

C^*w∩C^* ≠∅ для всех w∈C_i, i≥0.

(4.9)

Действительно, для i = 0 утверждение (4.9) очевидно. (Напомним, что C₀ = C.) Предположим, что (4.9) выполнено для i-1, и рассмотрим w∈C_i, i≥1. По определению C_i найдутся слова x∈C и y∈C_i-1, такие, что

или xw = y, или yw = x.(4.10)

По предположению индукции x₁y = x₂ для некоторых x₁ и x₂ в C^*. Следовательно, либо x₁xw = x₁y = x₂, либо x₁yw = x₂w = x₁x в зависимости от того, какое из равенств (4.10) имеет место. В обоих случаях мы видим, что C^*w∩C^* ≠ ∅, а это завершает доказательство (4.9).

Чтобы показать, что C не пересекается ни с одним из множеств C_i, i≥1, предположим противное: C∩C_i ≠ ∅ для некоторого i≥1. Следовательно, по определению C_i найдутся такие слова x∈C, x'∈C и y∈C_i-1, что

или yx = x', или x'x = y.(4.11)

Рассмотрим первое равенство. В этом случае (4.9) влечет yC^*∩C^* ≠ ∅ и C^*y∩C^*≠∅, откуда, согласно лемме 4.2, следует y∈C^*. Однако это невозможно, поскольку yx = x' и C есть код.

Следовательно, в (4.11) должно выполняться альтернативное равенство. Отсюда следует, что i≥2, поскольку в противном случае y принадлежало бы C, представляя собой произведение двух элементов из C. Следовательно, существуют y₁∈C_i-2 и x"∈C, такие, что

или y₁y = x", или x"y = y₁.

Первое равенство не выполняется, потому что в силу (4.9) и леммы 4.2 y₁x'x = x". Таким образом, должно выполняться альтернативное равенство

x"y = x"x'x = y₁.

Если i = 2, то выходит, что некоторый элемент C можно записать как произведение трех элементов из C. Значит, i≥3.

Продолжая в этом духе, мы придем к тому, что i больше любого наперед заданного числа. Отсюда можно заключить, что для всех iC∩C_i = ∅. ▫

ПОИСК:

© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'