По мере совершенствования компьютеров, которые человек моделирует по своему образу и подобию, они "интеллектуально" все больше приближаются к человеку. В лабораториях разных стран с головокружительной быстротой проводятся исследования в таких областях, как искусственный интеллект, аудиовизуальный вывод информации, и моделирование других способов восприятия информации человеком. В этой книге мы расскажем об искусственной, или компьютерной, речи и о том, как она используется в современных больших и малых компьютерах.
Цель книги - познакомить читателя с методами и принципами генерации искусственной речи, не упуская при этом из виду более практические, но тем не менее важные вопросы применения синтезаторов речи в современном обществе, которое с интересом и пониманием относится к развитию вычислительной техники. В большинстве опубликованных работ по компьютерной речи рассматривается в основном техническая база компьютерных синтезаторов речи и ничего не говорится о "подводных камнях" и возможностях их обхода при конкретных применениях. Часто нужные рекомендации даются лишь после того, как система уже спроектирована, разработана и поступила в практическое пользование. Во многих случаях эти рекомендации становятся доступными для разработчиков слишком поздно, чтобы, учтя их, внести необходимые изменения в изделия,- в результате вся идея оказывается обреченной на провал.
Сначала мы вкратце познакомимся с основами человеческой (естественной) речи, рассматривая их с точки зрения физиологии и биомеханики, а также дадим нечто вроде краткого курса лингвистики, которая, собственно, и является основным инструментом нашего исследования. После этого мы займемся методами генерации искусственной речи и расскажем о выпускаемых промышленностью изделиях, которые могут служить для построения синтезаторов речи на базе малых компьютеров.
Первая глава нашей книги служит введением в область компьютерного генерирования речи; она рассчитана в первую очередь на новичка, желающего получить хотя бы общее представление о положении дел в данной области. Знакомство с основными принципами компьютерного синтеза речи поможет читателю лучше понять современное состояние знаний в этой области и технику, используемую в новых приложениях синтезированной речи.
Во второй главе рассмотрен механизм речи человека. Эта глава касается преимущественно биологических вопросов, но понимание основных принципов механизма речи необходимо, чтобы в достаточной мере разобраться в содержании последующих глав. Поскольку синтезатор речи функционально должен моделировать человеческую речь, беглое знакомство с биомеханикой естественной речи позволит читателю осознать всю сложность искусственного воспроизведения тех же самых звуков из последовательности единиц и нулей.
Третья глава книги в каком-то смысле напоминает инструкцию по эксплуатации органов речи человека или компьютера. Описанный в предыдущей главе механизм речи останется бесполезным, если не знать ряда правил, используемых при разговоре. Изложение здесь ведется на примерах из английского языка. К сожалению, область лингвистики (фонетика), описываемая в этой главе, сродни тому предмету, который вызывал у нас раздражение в школе. Однако она имеет непосредственное отношение к компьютеру-синтезатору речи и поэтому заслуживает внимания! Это один из наиболее важных аспектов компьютерной речи. Чтобы правильно передать наши знания речи компьютеру, необходимо усвоить основные положения, которые изложены здесь. Если же вы пропустите эту главу, то вряд ли созданный вами компьютер заговорит как диктор в программе новостей. Синтезатор речи, разработанный без учета основ лингвистики, возможно, будет говорить, но как Буратино или утенок Дональд. Иначе говоря, эта глава знакомит с "программными средствами", необходимыми для получения речи от говорящего механизма. Без усвоения данного материала вы, по существу, обречены на попытки программировать компьютер без программного обеспечения.
В четвертой главе мы, отклонившись от технической направленности нашей книги, постараемся дать общее представление о некоторых довольно важных этических правилах, которые следует учитывать при реализации говорящего компьютера. Если вы взялись за чтение этой книги с намерением создать собственную компьютерную систему, способную разговаривать с людьми, то вам, естественно, надо помнить о необходимости соблюдения определенных правил речевого этикета, которыми, к сожалению, часто пренебрегают как люди, так и компьютеры. При желании вы можете отложить чтение этой главы до той поры, когда ваш синтезатор речи перестанет быть новшеством. Но без нее не обойтись, если вы захотите заставить компьютер замолчать. Эта глава не бесполезна: в ней изложены кое-какие соображения здравого смысла, которые следует учитывать при конструировании говорящих компьютеров - от говорящих устройств, используемых для охраны жилых домов, до "болтливых" игровых автоматов.
В пятой главе дается краткий исторический обзор исследований в области синтезирования речи. Эта глава весьма важна, ибо, как говорит пословица, не знающий прошлого обречен повторять его ошибки. Кроме того, небезынтересно узнать всю историю этих исследований и насколько усовершенствовались за 100 лет методы обучения машин разговору.
Глава шестая вводит нас в круг технических проблем современных систем синтеза речи. Рассмотрены и детально описаны все имеющиеся методы синтеза речи. Сначала описывается способ синтеза речи путем преобразования речевого сигнала в цифровой код. Далее рассматриваются методы аналогового формантного синтеза, линейное предиктивное кодирование (ЛПК) речи для систем с ограниченным и неограниченным словарями и методы частичной автокорреляции. В заключение читатель познакомится с перспективными методами, которые пока еще находятся в стадии исследований, но, вполне вероятно, найдут применение в будущем, когда это позволит развитие техники.
Седьмая глава представляет собой обзор выпускаемых в продажу синтезаторов речи, которые могут применяться в качестве периферийных устройств малых компьютеров. Изделия классифицированы по используемым в них методам синтеза речи. Краткое описание принципа действия каждого изделия помогает выбрать то, которое лучше удовлетворяет конкретным условиям применений.
Восьмая глава знакомит с широким диапазоном применений синтезаторов речи, начиная с устройств, которые уже поступили в серийное производство, и кончая теми, которые, быть может, впервые будут реализованы в вашем будущем персональном компьютере. Приводится также некоторая информация о возможных перспективных применениях синтезаторов речи, основой для которых послужат нынешние исследования. И независимо от того, на каком из синтезаторов речи вы остановите выбор, он непременно найдет подобающее применение.
В заключение приведен список литературы, который поможет читателю лучше разобраться в интересующих его вопросах. Следует, однако, иметь в виду, что многие из указанных в этом списке работ довольно трудны и рассчитаны на серьезное изучение.
Наконец, приводится словарь терминов, где читатель найдет разъяснение незнакомых ему терминов. Этот словарь может оказаться полезным и при чтении другой технической литературы, относящейся к области компьютерного синтеза речи.
Джон Кейтер
Моей дорогой Джей, которая терпеливо ждала, пока я писал эту книгу