Язык - это то, что в первую очередь присуще человеку... Как же можно говорить о языке машин?
В лучшем случае электронный помощник человека - это орудие памяти и связи, действующее, так сказать, во времени (память) и в пространстве (связь). Примером тому телефон и радио, книгопечатание и фотография, кинематограф и телевидение, телеграф и звукозапись, они отлично справляются с задачами: сохранять и распространять информацию.
Но современные электронно-вычислительные машины гораздо сложнее. Они не только сохраняют и распространяют информацию, но и перерабатывают ее.
Вот это и приводит машины к совершенно новым качествам. Не зря же известный английский ученый Джон Бернал говорит: "Теперь счетные устройства и их коды могут материально воплотить человеческую мысль в совершенно новые формы, в какой-то мере заменить язык. И даже пойти в своем развитии дальше языка".
Такой разговор сегодня можно слышать из уст авторитетных специалистов.
С точки зрения точных наук наш человеческий язык - это не что иное, как код передачи информации. Язык родился в период очеловечивания полуобезьяны-получеловека, а сегодня язык - это самая активная и самая действенная сила общения между людьми.
Сколько языков на земле? Ведь каждый континент, каждая национальность, а порой и племя говорят на своем собственном языке. Поэтому первый вопрос, который надо поставить: сколько народов живет на земном шаре?
Последние, однако далеко еще не полные исследования говорят о том, что в мире существует около двух тысяч народов.
Так, в зарубежной Европе можно насчитать около 50 народов, из которых 75 миллионов немцев, 50 миллионов итальянцев, 43 миллиона англичан...
В зарубежной Азии живет около 800 народов, в Северной и Южной Америке более 300 народов, в Австралии и Океании свыше 200 народов.
В нашей стране насчитывается более 100 народов. Самые многочисленные из них русские - 120 миллионов, украинцы - около 39 миллионов, белорусы - 8 миллионов.
Но языков и диалектов в мире гораздо больше... Даже в такой маленькой республике, как Дагестан, служившей на протяжении многих тысячелетий своеобразным коридором, проходящим через перешеек между Черным и Каспийским морями, отложилось ни много ни мало - свыше 60 языков, непохожих друг на друга.
Поэтому на земле насчитывается около 6000 языков.
Но среди великого множества можно выделить 13 "великих" языков. Владея этими языками, практически можно общаться со всеми людьми земного шара.
Язык состоит из слов, слова несут понятия. В сатирическом романе Ильфа и Петрова существует персонаж - людоедка Эллочка, которая объяснялась при помощи двух десятков слов, не больше. Высмеивая эту недалекую девицу, талантливые писатели почти лишили бедняжку языка, а вот Шекспир изъяснялся с читателями, используя 24 000 слов!
Современные математические исследования языка приводят нас к поразительным результатам, которых мы никогда в жизни не получили бы, если бы на помощь анализу не пришли машины. Они проанализировали различные языки - частоту употребления слов, характерное построение фразы. Именно машины дают нам сегодня возможность создать очень интересную статистику использования языка.
Американский ученый А. Уэст долго исследовал английский "словарь говорения". Вот его выводы: оказывается, для примитивного пересказа основной сюжетной линии анекдота нужно всего лишь 450 слов.
Как видите, это все же значительно обгоняет возможности людоедки Эллочки!
Для подробного пересказа любой сказки нужно не меньше 750 слов. Приключенческий роман требует не менее 1400 слов, а для пересказа любого произведения художественной литературы необходимо уже 3000 слов.
Сколько же практически нужно слов для общения людей между собой?
Я невольно вспоминаю увлекательный рассказ Акселя Ивановича Берга на тему словарного баланса.
"Я плавал в 1916 - 1917 годах на английской подводной лодке "Е-8" - одной из прорвавшихся сквозь немецкий заслон в Балтийское море,- рассказывает академик.- На каждую подлодку назначали для связи одного русского офицера, хорошо знавшего английский язык,- я и попал в число таковых.
Неожиданно выяснилось, что на лодке английского языка не существовало - пять офицеров и 50 матросов, набранных из различных портов и провинций Англии, Шотландии и Ирландии, с трудом понимали друг друга, объясняясь на каком-то чудовищном жаргоне. Но, как ни странно, на сложнейшем подводном корабле все обходилось благополучно. А ведь мы пользовались словарным запасом в каких-то 200 слов. Из них несколько десятков были команды, а остальные морской жаргон - короче, довольно остроумные и научно обоснованные морские ругательства, принятые во всем подводном экипаже Британского королевского флота".
Конечно, рассказ этот анекдотичен. В обыденной жизни все обстоит сложнее. Вот данные психологов.
Ребенок использует практически 3600 слов, подросток в 14 лет уже 9000 слов. Что же касается взрослого человека, то он употребляет свыше 11 000 слов. А человек повышенного интеллекта имеет в своем запасе до 13 500 слов. Это уже неплохо! Однако это еще очень далеко до полного использования словесного богатства, созданного человеческой культурой.
В языке есть слова, которые употребляются чаще и реже. С помощью кибернетических машин произвели и этот анализ.
Через машину, как говорится, прогнали огромное количество разнообразных текстов. Машина автоматически подсчитала, какой объем занимают самые употребительные слова на различных языках. Выяснилось, что в английском языке 75 процентов текста занимают 736 самых употребительных слов. А что это значит? Вы изучили 736 слов, и, следовательно, три четверти текста вам уже будет понятно.
Увеличим запас слов до 1000. Что мы получим? 80,5 процента английского, 83,5 процента французского и 81 процент испанского текста. То есть знание 1000 слов дает вам возможность полностью ориентироваться в чужом языке.
Увеличим еще наш словесный багаж - до 2000 слов. Тогда они соответственно составят в английском языке 86 процентов, при 3000 слов - 90 процентов, при 5000 слов - 93,5 процента. А что это значит? Зная 5000 слов, вы сможете свободно читать текст на английском языке, потому что лишь 19 слов из 300 будут вам незнакомы.
Но здесь обнаруживается поразительное явление.
Вы изучили 10 000 слов, а процент знания текста возрастает только до 96,4 процента. Сколько труда, сколько зубрежки, и только для того, чтобы выиграть каких-то 2,9 процента!
Это исследование очень интересно, особенно для тех, кто собирается изучать иностранные языки. Но в данном случае мы говорим о словарном составе обычного текста. Язык же писателя - это область, в которой он применяется в еще более разнообразных нюансах.
Вот почему первый, к кому мы обращаемся с математическим анализом языковых особенностей,- наш великий поэт А. С. Пушкин. Машинами было подсчитано, что полное Собрание сочинений Пушкина составляет приблизительно 600 тысяч разных, неоднократно повторяющихся слов. Из этой массы 21200 слов совершенно различны. Каким огромным словарным резервом владеет поэт! Свыше 100 раз употребляется всего 720 слов, а один раз на все 600 тысяч слов встречается 6440 слов, 2 раза - 2830 слов, 3 раза - 1800 слов.
Разве этот анализ не является поразительным математическим доказательством бесценного богатства языка и умения пользоваться этим языком, чтобы передать читателю "поэтическую информацию".
Могут сказать: да, но ведь это Пушкин! А как обстоит дело у других писателей?
В нашем распоряжении имеются некоторые данные. В "Божественной комедии" Данте 5860 слов, в произведениях древнего римского поэта Горация - 6084 слова, в стихах Гомера - около 9000 слов. Мы уже упоминали, что у Шекспира, по разным источникам, количество употребляемых слов колеблется от 15 000 до 24 000.
Но приборы современных кибернетических машин проверяют особенности писателей и по другим направлениям.
Какова, например, емкость фразы писателя? Среднее число слов во фразах произведения Алексея Толстого "Сестры" равно 11,9, в "Поединке" Куприна - 9,5.
Машины помогают составлению так называемого частотного словаря. Это словари, которые представляют собою список, начинающийся с самых часто встречающихся слов до слов, которые встречаются исключительно редко. Английский частотный словарь включает в себя 30 000 слов. Он начинается со слов, которые встречались всего лишь 4 раза. Были составлены словари: испанский язык - 400 000 слов, чешский - 1 200 000 слов, польский - 7 000 000 слов, французский -1 500 000 слов, немецкий - 11 000 000.
Хочется еще сказать об анализе языка с точки зрения его заимствования у других народов. Машины подсчитали, что в албанском языке из 5140 слов только 430 являются собственными. В армянском языке из 1500 слов 1140 заимствованы из персидского, греческого, парфянского, сирийского, арабского и других восточных языков. Можно сказать, что этот язык вобрал в себя все особенности восточных языков.
Но ведь этот процесс касается и таких языков, как английский. В нем от 55 до 70 процентов всех слов заимствованы из французского языка, латыни и других романских языков.
Эти цифры мы привели не для того, чтобы обидеть людей, говорящих на своем родном языке, невольно обвинив их в заимствовании. Мы отлично понимаем, что каждый язык складывался в соответствии с историческими условиями.
Однако вернемся к анализу языковых особенностей.
Слова состоят из букв. Как же употребляются отдельные буквы в словах? На кибернетической машине провели анализ произведений целого ряда советских писателей, таких, как Гайдар, Паустовский, Горбатов, с общим количеством 88 000 звуков русской речи. Оказалось, что на каждые 100 букв текста приходится девять "О", шесть "А", столько же "И", пять "Н". Что же касается таких редких букв, как "Ю",- на каждые 100 букв она встречается 0,6 раза.
Анализ слогов показал, что в русском языке в слове в среднем 2,2 слога. Слова же, состоящие из 5 слогов, чрезвычайно редки - их всего 3,5 процента.
Читатель спросит: почему же, интересуясь кибернетикой и мозгом человека, мы так много места уделяем проблеме словообразования? А все дело заключается в том, что именно этот анализ и дает нам возможность вплотную подойти к пониманию того, что такое язык машин, как машина в состоянии переводить текст с одного языка на другой.
Когда-то, лет 100 назад, во всем мире выходило не более 1000 научных журналов, теперь их выходит свыше 100 тысяч. Если бы, например, химик 40 часов в неделю тратил на то, чтобы со скоростью четырех статей в час читать все, что публикуется в современной прессе, он за целый год не прочитал бы и десятой доли того, что ему следовало бы прочитать. Это приводит нас к прямой необходимости использования машин. Современная наука должна перерабатывать колоссальнейшее количество информации. Например, в Библиотеке имени Ленина сейчас хранится около 21000 000 книг, к концу века их будет свыше 100000 000. В нашей стране 400000 библиотек, в которых насчитывается полтора миллиарда книг.
За год Институт информации в Москве обрабатывает 11000 иностранных изданий, 3000 - советской периодики, 90 000 патентов, опубликованных на 65 языках. Для того чтобы обрабатывать всю эту гигантскую массу материалов, конечно, необходимо применение кибернетических машин.
Можно было бы до бесконечности продолжать эти важные расчеты, а сводятся они в основном к тому, чтобы призвать на помощь информационные машины.
Проблема перевода уже давно интересовала изобретателей и ученых. Первые машины перевода с одного языка на другой обрабатывали сугубо научный текст. Да оно и понятно - словарный запас в научных текстах сравнительно беднее, чем в художественных.
Перевод с английского языка на французский и в обратном порядке проходил гладко, потому что строй языков был очень близок. Но когда столкнулись с переводами с немецкого языка на русский, перед учеными возникли необычайные трудности. Грамматика этих языков совершенно различна - в немецком глагол уходит в конец фразы. Машина мгновенно получила двойку по грамматике, а ученые растерялись.
Тогда начали создавать машину, которая заранее программировалась бы на эти правила.
Языковеды начали давать свои советы - теперь разводили руками кибернетики.
- Что же, вы хотите лишить машину универсальности? - говорили они.- Но это слишком дорого - создавать единичные машины. Кибернетическое устройство обязательно должно быть универсальным.
Однако для создания универсальной машины невероятно возрастало количество вариантов грамматических правил. Для 10 языков получалось 90 правил перевода. А как все это запрограммировать в машину?
Начав с некоторых успехов, кибернетики в конце концов зашли в тупик. И тогда возникла мысль создать язык-посредник. Машина будет переводить на этот язык, а уже потом с языка-посредника будут осуществляться переводы на все языки. Прежде всего это резко снизит количество промежуточных процессов: вместо 90 вариантов правил понадобится всего 20, из них 10 правил для перевода на язык-посредник и 10 - для перевода на другой язык.
Эта идея оказалась чрезвычайно плодотворной. Однако что же это за язык-посредник и каким он должен быть?
Сначала взяли первый попавшийся язык - латынь. Латынь не подошла - она была лишена универсальности, необходимой для языка-посредника. Тогда лингвисты предложили использовать язык "эсперанто" и недавно созданный язык "интерлингва". В эсперанто грамматика состоит всего из 16 правил, к тому же не очень сложных.
Но дело опять не пошло на лад - язык эсперанто оказался слишком непохожим на живые языки. И наконец, после нескольких неудачных попыток языковеды пришли к необходимости создания для кибернетических машин своего собственного, специального языка. На этом языке никто никогда не будет говорить. Он будет скрыт от нас в недрах электронной переводческой машины. Сегодня над созданием такого языка работают ученые уже многих стран мира. В частности, в Ленинграде созданием такого языка занимается большая группа лингвистов. В основу своей работы они берут 26 западноевропейских и восточных языков, учитывают, какая часть населения земного шара пользуется тем или иным языком, и отбирают нечто среднеарифметическое из этих языков, с учетом их распространения.
Сегодня рано еще говорить о результатах в работе над созданием языка кибернетических машин, но все же некоторые правила могут представлять интерес.
Например, в этом языке прилагательное обязательно должно стоять перед существительным, подлежащее располагается всегда раньше сказуемого, наречие должно стоять до глагола. Артикли, существующие в некоторых европейских языках, были признаны абсолютно ненужными. Но, возможно, и этот язык, который сейчас разрабатывается, окажется несовершенным и от него придется отказаться.
Язык машин - язык совершенно условный. Он будет представлять собой сетку соответствий между элементами языков, подвергающихся переводу. Московские ученые, во всяком случае, настаивают на создании именно такого языка.
Нужно сознаться, что сегодня вся работа по созданию машин-переводчиков ведется пока еще лишь в области технических текстов. Никто не ставит серьезно вопрос о переводе художественной литературы.
Работа лингвистов и кибернетиков в области переводов дает иногда поразительные результаты. В свое время вся мировая пресса писала о том, что ни одному ученому в мире до сих пор не удалось расшифровать древние рукописи племени майя, уничтоженного испанскими конквистадорами в Южной Америке свыше четырех веков назад. Такую же судьбу разделяют письмена ронго-ронго с острова Пасхи.
Иероглифы майя нанесены на кожу, на кору фикуса; а иероглифы ронго-ронго вырезаны на кусках дерева. Знание языков обоих этих народов давным-давно утеряно.
Советскому ученому Ю. Кнорозову удалось установить, что письменность майя - это иероглифы. И вот за расшифровку таинственных надписей взялись молодые ученые Сибирского отделения Академии наук. Перед ними стояла невероятная, почти неразрешимая задача - раскрыть тайну 400 иероглифов, более половины из которых были совершенно непонятны, а в отношении другой половины имелись лишь весьма смутные догадки.
Работу по переводу поручили машине. Была составлена специальная программа статистического исследования языка. В машину вводились данные поиска словаря, цифровые обозначения для всех иероглифов. Были введены все буквы латинского алфавита. Увлекательный, сложный процесс расшифровки мертвого языка длился два дня. За это время машина проделала свыше миллиарда операций. И какой успех! 40 процентов текста уже можно было прочитать. 130 лет трудились ученые над расшифровкой рукописей майя. И только сегодня с помощью машины удалось приоткрыть тайну древнего языка. Для расшифровки всего текста племени майя потребуется еще 200 часов работы, во время которых машина должна будет произвести 11 миллиардов операций.
Язык ронго-ронго также ждет своих исследователей. И, очевидно, мысли народа, когда-то населявшего остров Пасхи, станут известны человечеству с помощью машины, анализирующей самое прекрасное, самое удивительное, что создал человек,- язык.
Совершенно по-другому решается вопрос создания языка для машин-информаторов. Здесь не нужно никакого логического языка - нужны абстрактные знаки, условные символы.
Примером таких абстрактных знаков может служить известная всем азбука Морзе, состоящая из точек и тире, впервые примененная при телеграфных передачах.
Число знаков доведено до предела: их всего два.
Но может быть и другая "экономия". Вот запись на языке математики: а + в = в + а. А вот то же на обычном языке: "Сумма складываемых чисел не зависит от последовательности их сложения". Как видите, количестве знаков во втором случае почти в десять раз больше.
Примером символического языка может служить и язык химии. Серная кислота - H2SO4. Понятие одно и то же, однако в одном случае слова, в другом - символы.
Современные электронно-вычислительные машины не только должны собирать и распространять информацию, но они обязаны перерабатывать ее. Этим машинам нужен свой язык - новый код.
Его разработкой заняты многие вычислительные центры.
Программисты Вычислительного центра Сибирского отделения Академии наук создают сейчас новый язык - посредник между человеком и машиной. Этот язык назван "альфа"-языком или "сибирским языком". Он является значительным вкладом во взаимопонимание между человеком и машиной.
А взаимоотношения эти еще очень сложны. Ведь текст-задание программист должен с помощью специальных программ - трансляторов - преобразовать в язык, "понятный" машине. В этом случае программист превращается в своеобразного "жреца-посредника" между миром машин и человечеством.
Таким образом, встает задача: сделать язык машины доступным не единицам, а широкому кругу людей.
В свое время молодой ученый - заведующий отделом программирования Вычислительного центра Сибирского отделения Академии наук Андрей Ершов представляет себе этот процесс как своеобразное обучение машины. Человек дает задание машине, она, если не понимает, задает вопрос. Новый ответ - и снова вопрос машины. И так до полного взаимного понимания.
- Во взаимоотношениях человека и машины,- говорит Ершов,- надо добиться, чтобы машина с каждым новым заданием становилась все "понятливей", чтобы, получая аналогичные задания, она не задавала одних и тех же вопросов. Иначе говоря, надо, чтобы машина сохраняла в своей электрической памяти "протоколы" своих бесед с человеком и свои новые знания употребляла в дальнейшей работе. Это не что иное, как обучение машины человеческому языку.
- Настанет ли такое время, когда машина будет понимать человека с полуслова?
- Да. Это время не за горами,- говорит молодой ученый.- Все дело в накоплении "словарных запасов" машиной. Сначала человек - учитель - приспосабливается к ограниченному языку ученика - машины. А когда тот его начинает понимать, расширяя баланс языка и знаний, подтягивает его до своего уровня. Невольно я вспоминаю машину в японском павильоне Всемирной выставки, которая выполняет с голоса 40 команд на шести языках. Не первые ли это шаги?
Ведь практически возможно непрерывно расширять количество и характер той информации, которую с голоса может воспринять машина. Принцип освоен - все дело в объеме памяти машины и в умении ее распознавать получаемые сигналы. Придет время, и машины старших поколений будут поражать нас широтою своих возможностей.
Ну что ж, будем считать, что электронно-вычислительная машина уже села за школьную парту!
- К сожалению, я не смогу точно перевести ваше пылкое признание... Раньше я переводил только технические тексты