НОВОСТИ   БИБЛИОТЕКА   ЮМОР   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  




предыдущая главасодержаниеследующая глава

В чем суть вопроса?

Много тысячелетий назад, на заре человеческого общества, когда человек только начинал произносить первые звуки, он воспринимал речевое общение как некую часть жизни. Сейчас мы каждый день используем речь для связи или передачи сообщений. К счастью, сам процесс генерации речи требует от нас минимальных умственных усилий. В противном случае нам, возможно, пришлось бы при разговоре постоянно делать паузы. И поскольку устное общение - одно из наиболее эффективных средств, имеющихся у нас для выражения своих мыслей и чувств, мы пользуемся им весьма широко. В самом деле, не будет преувеличением сказать, что каждый из нас произносит ежедневно в среднем 40 тыс.слов. Можете ли вы себе представить, как бы это выглядело в письменной форме? Запись разговоров только одного человека на протяжении всей его жизни могла бы составить целые библиотеки. Итак, совершенно ясно, что устная речь представляет собой одну из наиболее важных и полезных для нас форм общения. Напомним, однако, что в большинстве случаев устная связь не оставляет после себя никаких "следов", кроме эха и того, что откладывается из услышанного в нашей памяти. Напротив, письменное сообщение считается долговременным отпечатком мыслительных процессов.

С появлением в XX в. электронных вычислительных машин человек стал сознавать, что он создал устройство, способное разумно реагировать на его команды. В соответствии с имевшимися техническими средствами для вывода информации из компьютера сначала использовали мигающие лампочки; позднее перешли на печатные сообщения. Хотя максимальная скорость печати у первых компьютеров достигала 60 слов в минуту, совершенствование продолжалось. Сегодня в нашем распоряжении лазерные печатающие устройства (принтеры), производительность которых достигает 600 страниц в минуту. Вообразите себе компьютер, выдающий информацию со скоростью 10 страниц в секунду! Всего за сутки работы такой компьютер может дать почти миллион страниц информации.

Параллельно с разработкой компьютеров ученые трудились над созданием электронных моделей голосового тракта, способных искусственно генерировать голос человека. Занимаясь этими проблемами, специалисты сначала не ориентировались на компьютеры, а предполагали использование устройств, управляемых человеком. Но по мере становления названных параллельно развивающихся технологий они взаимно обогащали друг друга. Компьютер начал говорить. Первые несколько слов, с трудом произнесенных компьютером, ознаменовали еще одно проявление эгоцентризма человека. Действительно, поначалу компьютер моделировали по образу и подобию человека. С тех пор, однако, мы поняли, что способность компьютера к непосредственному взаимодействию с человеком путем речевого вывода и ввода информации весьма удобна и естественна для нас. В последние годы эта область привлекла к себе внимание электронной промышленности, и началось ее довольно быстрое развитие, хотя пока она еще пребывает в младенческом возрасте.

Описываемые в этой книге основные принципы, методы и технические средства, используемые для компьютерного синтеза речи, характеризуют уровень, достигнутый на 80-е годы. Однако, поскольку способности человека понимать и преодолевать трудности, по-видимому, удваиваются каждые пять лет, весьма вероятно, что с высоты 90-х годов наши достижения покажутся устаревшими. Но ведь и ребенок, обучаясь ходить, сначала ползает и лишь потом обретает способность бегать. Сейчас по своим возможностям в области генерации искусственной речи мы пребываем в состоянии где-то между ползанием и ходьбой. Существует три основных технологически различных подхода к проблеме синтеза речи:

  1. Метод кодирования-восстановления формы сигналов.
  2. Аналоговый метод синтеза формантных частот.
  3. Цифровое моделирование голосового тракта.

Первый из этих методов представляет собой один из самых основных и элементарных подходов к созданию говорящего компьютера. По существу, компьютер в данном случае просто служит устройством для записи речи. Но для хранения информации в нем используется не магнитофонная лента или грампластинка, а цифровое запоминающее устройство. Фразы и слова записываются раздельно и воспроизводятся в нужный момент по командам, поступающим от соответствующей программы. Возможность "сказать" слово, которое не было заранее введено в память, здесь отсутствует. Для реализации "говорящего" выхода в подобных системах требуется очень мало дополнительных аппаратных средств. У этого метода есть, к сожалению, очень серьезный недостаток - для хранения речевых сигналов в их непосредственной форме нужна память значительного объема. Хотя полученная таким образом речь по качеству и может приближаться к весьма хорошей звукозаписи, требования к объему памяти часто оказываются неприемлемыми.

Тем не менее, когда необходимый словарь не слишком велик, т. е. не превышает 10-15 слов или фраз, данный метод вполне пригоден и весьма недорог. Действие этого метода иллюстрирует рис. 1.1. Его применение вполне естественно там, где нужен ограниченный и неизменный словарь, например при создании говорящего приборного щитка для автомобиля. Поскольку необходимые речевые сообщения здесь полностью определяются особенностями работы автомобиля для их хранения достаточно памяти ограниченного объема. Таким образом, автомобильный приборный щиток дополняется довольно компактным и недорогим устройством речевого вывода.

Рис. 1.1.  Синтез речи с предварительным кодированием
Рис. 1.1. Синтез речи с предварительным кодированием

Второй метод синтеза речи - метод синтеза формантных частот. Синтезатор, построенный в соответствии с этим методом, принципиально отличен от описанного выше и, как правило, имеет неестественное звучание, что объясняется особенностью источника речи. Формантный синтезатор говорит голосом робота, ибо получаемая на его выходе речь не имеет в своей основе естественной человеческой речи, как это было в предыдущем методе. Другими словами, речь, генерируемая формантным синтезатором, действительно создается в компьютере. В основу формантного синтезатора положены принципы акустического моделирования голосового тракта человека. Более детально они будут рассмотрены в дальнейшем. Для генерирования формантных частотных полос, которыми характеризуется человеческая речь, используются полосовые фильтры. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру речи человека, и наш слух интерпретирует его как речевое сообщение.

Преимущество формантного метода синтеза - в его универсальности, вытекающей из присущей этому методу возможности иметь неограниченный словарь. Поскольку речь создается в этом методе из отдельно генерируемых звуков, правильно расставив звуки, можно произнести любое слово. Эта универсальность, однако, достается не бесплатно - за нее приходится расплачиваться ухудшением разборчивости речи. Во многих случаях понять, что говорит формантный синтезатор, нелегко. Кроме того, дополнительные трудности при реализации неограниченного словаря создает множество имеющихся в английском языке исключений из правил написания и произношения слов.

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании многочисленных поддающихся идентификации звуков речи, называемых фонемами. Образуя последовательность фонем, подобную той, что существует в естественной речи, фонемный синтезатор может довольно хорошо копировать нашу речь. Общая схема устройства, осуществляющего такой процесс, показана на рис. 1.2. Само собой разумеется, что при столь упрощенном представлении формантного синтеза опускается трудности реальной генерации речи по этому методу. Но основные особенности типичного формантного синтезатора на этой схеме все же отражены.

Рис. 1.2. Формантный синтез речи
Рис. 1.2. Формантный синтез речи

Преимущество формантного синтезатора с фонемным возбуждением с точки зрения его использования в персональном компьютере заключается в том, что любое слово, поддающееся фонетическому описанию, таким синтезатором может быть произнесено. Выходной словарь синтезатора, подключенного в качестве периферийного устройства к персональному компьютеру, не зависит от набора слов, помещенных изготовителем в память. Возможно, следующее соображение поначалу покажется вам незначительным, но задумайтесь на мгновение, могли ли бы, например, изготовители ввести в заранее составляемый для синтезатора словарь вашу фамилию? Вряд ли! Этот пример как раз и иллюстрирует универсальность формантного синтезатора. Такая возможность есть у всех типов синтезаторов с фонемным возбуждением [существуют также фонемные синтезаторы с линейным предиктивным кодированием (ЛПК)], а роскошь неограниченного словаря никакому другому методу синтеза речи не доступна.

Формантный метод синтеза речи точнее всего можно описать как цифровое моделирование голосового тракта человека. Наиболее распространенная реализация этого метода известна под названием линейного предиктивного кодирования (ЛПК) речи. Есть еще и другие способы реализации, весьма похожие на ЛПК,-это частичная автокорреляция (паркор) и параметрическое кодирование сигналов речи. Все эти способы насыщены математическими выкладками, поскольку в них используют математические модели голосового тракта. Голосовой же тракт человека - довольно сложная акустическая система, и уравнения, с помощью которых описывается его работа, также весьма сложны.

Преимущества синтезаторов третьего типа обусловлены простотой их реализации в виде цифровых интегральных микросхем, вытекающей отсюда меньшей себестоимостью производства и меньшей эквивалентной скоростью передачи информации. Словарь в синтезаторах этого типа, как и в первом методе синтеза речи, обычно создается с участием говорящего человека. Но в данном случае в память не записываются непосредственно слова и фразы, а производится выделение частотных и голосовых параметров речи. Такой подход позволяет значительно уменьшить объем памяти, необходимый для получения речевого вывода. В этом и заключается одно из главных достоинств данного метода синтеза речи. Примером преимуществ этого метода может служить выпущенная фирмой "Тексас инструментс" обучающая детская игра "Говори и пиши по буквам". Это сравнительно недорогое устройство синтеза речи по методу ЛПК обладает словарным запасом примерно в 200 слов. Компьютер, управляющий синтезатором, размещен внутри устройства и выполнен на базе 4-разрядного микропроцессора. После этой обучающей игрушки в последующие годы было создано много других аналогичных говорящих устройств малого размера. Хотя говорящие игрушки не были абсолютной новинкой (куклы и телефоны со встроенными в них миниатюрными проигрывателями появились задолго до них), введение в игрушки синтезаторов значительно улучшило разборчивость речи и позволило существенно повысить механическую надежность изделий.

Принцип действия устройств, основанных на цифровом моделировании речевого тракта человека, поясняется на рис. 1.3. Внешне этот метод весьма напоминает синтез речи путем кодирования формы сигнала, однако он существенно превосходит последний длительностью речевого сообщения при одинаковых объемах памяти. Различия в качестве речи очень малы и едва заметны для среднего слушателя. Благодаря эффективному использованию памяти снижается стоимость устройства в расчете на одно записанное слово. Поэтому расширение спроса на говорящие устройства со всё более объемным словарем будет, несомненно, способствовать распространению синтезаторов речи, основанных на цифровом моделировании голосового тракта.

Рис. 1.3. Синтез речи с цифровым моделированием голосового тракта
Рис. 1.3. Синтез речи с цифровым моделированием голосового тракта

предыдущая главасодержаниеследующая глава








© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь