НОВОСТИ   БИБЛИОТЕКА   ЮМОР   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  




предыдущая главасодержаниеследующая глава

Аналоговые формантные синтезаторы речи

Следующую группу речевых синтезаторов составляют устройства, воспроизводящие голос человека по методу синтеза формантных частот. Поскольку эти устройства формируют свой выход не путем прямого восстановления речи, они говорят, как роботы. Однако такие устройства дают возможность пользоваться неограниченным словарем - и это очень часто отодвигает на задний план все их недостатки, связанные с неестественным звучанием речи. В частности, при определенной натренированности слушателей к восприятию фонетической формантной речи синтезатор такого типа оказываются вполне приемлемыми и могут с успехом заменить синтезаторы речи других типов.

Хотя данный метод генерации синтезированной речи используется уже довольно давно, подобные устройства по-прежнему сохраняют свою конкурентоспособность. В табл. 7.4 перечислены имеющиеся в продаже формантные синтезаторы речи. Благодаря фонемному методу синтеза возможности этих синтезаторов весьма широки. Остановимся теперь подробнее на этих средствах аналогового моделирования голосового тракта человека.

Таблица 7.4. Характеристики выпускаемых формантных синтезаторов
Таблица 7.4. Характеристики выпускаемых формантных синтезаторов

Читающая машина фирмы "Курцвайл компьютер продактс"

Хотя читающая машина KRM фирмы "Курцвайл" не является непосредственно компьютерным периферийным устройством и при ее проектировании такое использование не предусматривалось, эту машину можно считать важной вехой в развитии средств синтеза речи. KRM - это комбинированная интерфейсная система, состоящая из оптического читающего устройства и синтезатора речи; она предназначена в первую очередь в качестве читающего аппарата для слепых Читающая машина KRM обеспечивает прямой индивидуальный доступ к печатным и машинописным материалам слепым и людям с плохим зрением. Система KRM модели III довольно компактна и внешне напоминает стандартное множительное устройство конторского типа. Читающая машина обеспечивает фонетический синтез речи из информации, поступающей от оптической системы распознавания печатных и машинописных знаков; это наделяет ее неограниченными в словарном отношении возможностями речевого воспроизведения текста. Рис. 7.19 иллюстрирует использование машины KRM модели III. Книга укладывается на читающее сканирующее устройство считываемой страницей вниз. Система оптически отслеживает строки печатного текста и декодирует их, воспроизводя содержание книги в словесной форме. Небольшой пульт управления оснащен удобной панелью, которая дает пользователю возможность осуществлять временный останов машины, возвращаться на одну или несколько строк для их повторного прослушивания, пропускать очередные строки текста, находить нужное слово и заставлять машину произносить его. а также производить начальную установку машины в соответствии с форматом книги. На этой маленькой панели управления имеются также органы регулировки громкости, скорости чтения и высоты основного тона. Управляющее устройство размером 25*230*51 мм содержит встроенный громкоговоритель, откуда и звучит преобразованный в фонетическую форму текст.

Рис. 7.19. Работа с читающей машиной KRM модели III фирмы 'Курцвайл компьютер продактс'. (С разрешения фирмы 'Курц-вайл компьютер продактс'.)
Рис. 7.19. Работа с читающей машиной KRM модели III фирмы 'Курцвайл компьютер продактс'. (С разрешения фирмы 'Курц-вайл компьютер продактс'.)

Все электронные блоки читающей машины фирмы "Курцвайл" показаны на фотографии рис. 7.20. Помимо панели управления (внизу слева) здесь изображены два блока: оптическая следящая система и электронное устройство управления оптической сканирующей системой, причем первая из них установлена на втором. Для автоматического чтения документов размером 278*356 мм в оптической следящей системе используется камера в виде линейной матрицы сканирующих элементов. Электронное устройство управления для следящей системы включает схемы, необходимые для выполнения таких операций, как сканирование, распознавание знаков и преобразование текста в последовательности фонем, из которых складывается речевой выход. Чтобы придать читающей системе большую гибкость, фирма "Курцвайл" установила на передней панели электронного устройства Управления цифровой кассетный накопитель на магнитной ленте, что облегчает ввод в систему программных средств, необходимых для работы читающей машины.

Рис. 7.20. Электронные блоки читающей машины KRM модели III. (С разрешения фирмы 'Курцвайл компьютер продактс'.)
Рис. 7.20. Электронные блоки читающей машины KRM модели III. (С разрешения фирмы 'Курцвайл компьютер продактс'.)

Чтобы проиллюстрировать сложность процесса чтения, выполняемого машиной KRM, специалисты фирмы "Курцвайл компьютер продактс" составили блок-схему этого процесса, по которой можно легко проследить операции, реализуемые машиной. Последовательность действий, происходящих при чтении, отражена на рис. 7.21; эта диаграмма не только поясняет работу машины, но и позволяет представить, сколь сложны прикладные задачи синтеза речи. Как видно из блок-схемы, текст книги или печатный материал сканируется оптически посредством камеры и после соответствующего усиления визуальных образов преобразуется в электронные сигналы. Эти сигналы затем подвергаются обработке в соответствии с довольно сложной программой распознавания образов, которая обеспечивает идентификацию каждого считанного знака. Этот процесс настолько же сложен, как и синтез речи. После того как печатный текст преобразован в цепочки электронного "текста", перед системой возникает задача преобразования дешифрованного материала в фонемы, которые подаются в речевой синтезатор. Словарные возможности и правила фонетических преобразований, используемые в системе, довольно типичны для большинства синтезаторов, преобразующих печатный текст в речь. На выходе системы получается фонетически воспроизводимый текст, для восприятия которого требуется известный навык. Однако следует отметить, что способности этой системы в речевом воспроизведении текста поистине ни с чем не сравнимы. Эта система речевого синтеза, безусловно, преследует весьма благородные цели. Ее приложение показывает, насколько далеко ее возможности опережают возможности говорящих торговых автоматов.

Рис. 7.21. Схема функционирования читающей машины KRM модели III. (С разрешения фирмы
Рис. 7.21. Схема функционирования читающей машины KRM модели III. (С разрешения фирмы "Курцвайл компьютер продактс".) 1.Выпуклость вверх. 2. Замкнутый контур в верхней части. 3. Горизонтальная линия. 4. Вогнутость, обращенная вправо. 5. Выпуклость, обращенная влево. 6. Обучающийся блок. Запоминает вновь встретившиеся формы и проверяет правильность распознавания по шаблонам, взятым из памяти заново выученного алфавита. 7. Блок устранения неоднозначности букв. Учитывает специфические свойства: необычные пропорции, контекст, разделение букв на слова, положение строки в тексте. 8. Фонетические правила. Разделение на слоги, контекст ударения в словах. 9. Правила речеого синтеза. Преобразования фонем в сигналы управления звуковым синтезатором (сигналы отражают такие параметры, как высота основного тона, ударение, длительность, межфонемные переходы.)

Синтезатор Свит токер фирмы "Майкроминт"

Синтезатор Свит токер - второе периферийное устройство для синтеза речи, выпускаемое фирмой "Майкроминт инкорпорейтид". В то время как в ее первом устройстве - Майкромаус - для генерации речевого выхода используется набор микросхем Диджитокер, в устройстве Свит токер для этой цели применяется микросхема фонетического синтеза речи SC-01A Вотракс, выпускаемая отделением "Вотракс" фирмы "Федерал скрю уоркс". Синтезатор Свит токер представляет собой небольшую печатную плату, изготавливаемую в двух форматах. Синтезатор Свит токер, предназначенный для компьютера Эппл II, подключается непосредственно в гнездо для периферийного устройства на стандартном шасси компьютера Эппл II. Вторая плата синтезатора Свит токер спроектирована в расчете на сопряжение с любым компьютером, оснащенным параллельным ТТЛ-портом. Поскольку в устройстве Свит токер используется микросхема фонетического синтеза Вотракс, в следующем разделе мы приведем характеристики этой схемы.

Рис. 7.22. Плата фонетического синтезатора Свит токер фирмы 'Майкроминт'. (С разрешения фирмы 'Майкроминт инк.'.)
Рис. 7.22. Плата фонетического синтезатора Свит токер фирмы 'Майкроминт'. (С разрешения фирмы 'Майкроминт инк.'.)

Первоначальная конструкция синтезатора Свит токер, спроектированная Стивом Сьярсиа, была описана в сентябрьском номере журнала Byte Magazine за 1981 г. Параллельный вариант схемной платы Свит токер изображен на рис. 7.22, который позволяет судить о размерах платы и простоте ее конструкции. Этот модуль синтезатора питается от источников с напряжениями +5 и +12 В. Обе схемные платы оснащены фильтрами звуковых частот и усилителями Мощности с регуляторами громкости громкоговорителей. Поскольку оба варианта синтезатора Свит токер имеют фонемное возбуждение, их словари неограниченны, что связано с возможностью соединения фонем при образовании слов.

Микросхема фонемного речевого синтезатора типа SC-01 фирмы "Вотракс"

Синтезатор речи SC-01, выпускаемый фирмой "Вотракс", представляет собой полностью автономную полупроводниковую интегральную схему. Конструкция этого построенного на одной микросхеме синтезатора такова, что позволяет ему - при поступлении на его вход цепочек фонем - фонетически синтезировать непрерывную связную речь. Входящая в речевой синтезатор SC-01 микросхема имеет встроенную память на 64 различные фонемы, доступ к которым осуществляется посредством 6-разрядного двоичного кода. Надлежащим образом выбирая последовательности фонем для ввода в синтезатор, на его выходе можно воспроизвести требуемые речевые образы.

Рис. 7.23. Потоки информации в процессе работы синтезатора SC-01 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс корп.'.)
Рис. 7.23. Потоки информации в процессе работы синтезатора SC-01 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс корп.'.)

Структурная схема синтезаторной микросхемы SC-01 с 22 выводами показана на рис. 7.23. В этой схеме отсутствуют сложные соединения с интерфейсом управляющего компьютера. Шесть двоичных разрядов входа используются для адресации требуемой фонемы в памяти микросхемы, а еще два входных разряда - для выбора высоты основного тона запрашиваемой фонемы. Если управляющие данные на эти входы поступают со скоростью примерно 70 бит/с, синтезаторная схема заговорит. Поскольку интегральная схема спроектирована на основе К/МОП-технологии, полный потребляемый ею во время работы ток составляет всего 9 мА. Эта особенность синтезаторной микросхемы в сочетании с совместимостью ее входов с ТТЛ-схемами делает ее идеальным устройством для сопряжения с любым персональным компьютером.

Рис. 7.24. Структурная схема внутренних блоков синтезатора SC-01 фирмы 'Вотракс'
Рис. 7.24. Структурная схема внутренних блоков синтезатора SC-01 фирмы 'Вотракс'

В действительности функционирование такого синтезатора в интегральном исполнении весьма сходно с работой формантных синтезаторов (см. гл. 6). Структуру этой микросхемы (рис. 7.24) полезно сравнить со схемами, рассмотренными в предыдущей главе, что дает возможность идентифицировать различные по функциональному назначению блоки. Явное различие между ними и данным синтезатором заключается в том, что в последнем формантные фильтры F1, F2, F3 и F4 соединены последовательно, а не параллельно. Однако конечный результат в обоих случаях одинаков.

Кроме отдельной синтезаторной микросхемы фирма "Вотракс" выпускает также несколько различных модулей речевых синтезаторов, в которых эта микросхема используется для генерации речи. Первый из них - это модуль Спич ПЕК (контроллер доступа к фонемам), показанный на рис. 7.25. Он представляет собой относительно недорогую автономную систему с низкой скоростью передачи управляющих битов, в которой для генерации речи используется встроенная память фонемных последовательностей и слов. Принятая конструкция контроллера позволяет системе хранить доступные для выборки слова в форме 8-байтовых приращений. Емкость встроенного в модуль стираемого программируемого ПЗУ типа 2716 предоставляет в распоряжение пользователя словарь из 255 слов. Кроме работы в режиме обращения к хранимому в памяти словарю, контроллер доступа к фонемам может также производить выборку отдельных фонем, вводимых для генерации фонетической речи внешним устройством. Это наделяет говорящую систему способностью работать с неограниченным словарем.

Рис. 7.25. Синтезаторный модуль Спич ПЕК фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.25. Синтезаторный модуль Спич ПЕК фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Структурная схема контроллера доступа к фонемам данного модуля (рис. 7.26) показывает схемные компоненты этой платы. Для генерации фонетической речи необходимые соединения с платой осуществляются непосредственно через ряд параллельных портов. В модуль Спич ПЕК входит, кроме того, звуковой усилитель, осуществляющий прямое возбуждение громкоговорителя.

Рис. 7.26. Структурная схема межблочных соединений в синтезаторе Спич ПЕК фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.26. Структурная схема межблочных соединений в синтезаторе Спич ПЕК фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Фирма "Вотракс" предлагает и другое автономное устройство - VSM (многоцелевой речевой модуль) типа речевого синтезатора, которое построено аналогично модулю Спич ПЕК, но дополнительно имеет встроенный микропроцессор. Это устройство, оснащенное встроенным микропроцессором, можно использовать в качестве полноструктурного микрокомпьютера, позволяющего моделировать и разрабатывать говорящие системы. Встроенный процессор можно также запрограммировать на выполнение управляющих и контрольных функций, которые осуществляются одновременно с генерацией речи (неограниченной по словарному составу) в реальном масштабе времени.

Рис. 7.27. Микрокомпьютерная плата синтезатора VSM/1 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.27. Микрокомпьютерная плата синтезатора VSM/1 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Модуль VSM (рис. 7.27) содержит параллельный компьютерный порт - для непосредственного сопряжения с персональным компьютером и последовательный порт RS-232 - для непосредственного сопряжения с операторскими терминалами. Работа системы с речью организуется встроенной речевой операционной системой Воксос. На фотографии модуля VSM видны свободные гнезда, которые предусматривают возможность расширения как операционной системы, так и автономного словаря. Из сказанного ясно, что благодаря автономному микропроцессору (М 6800) возможности этого синтеза модуля речи весьма значительны.

Приведенная на рис. 7.28 структурная схема одноплатного устройства, сочетающего компьютер с речевым синтезатором, дает представление о широком применении периферийных схем, сопряженных с базовой микросхемой синтезатора речи SG-01. Когда в распоряжение синтезатора речи выделяется определенный ресурс вычислительной мощности, его возможности становятся практически безграничными. В этом случае объем памяти для хранения программных средств и словаря, находящихся под управлением пользователя, довольно велик, благодаря чему подобную систему можно использовать для решения сложных прикладных задач. Входящая в состав операционных программных средств программа позволяет осуществлять межкомпьютерыую передачу произносимых голосом команд, что, по сути дела, обеспечивает регистрацию речевого выхода. В результате ведущий компьютер может управлять периферийными синтезаторами речи во многом аналогично тому, как он управляет буферизованным принтером. Хотя цена такого устройства относительно высока в сравнении со стоимостью большинства других периферийных модулей, пригодных для синтеза речи с помощью персональных компьютеров, его применение экономически весьма выгодно.

Рис. 7.28. Структурная схема межблочных соединений в синтезаторе VSM/1 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.28. Структурная схема межблочных соединений в синтезаторе VSM/1 фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Модуль VSM может располагать встроенным словарем на 1300 слов. Кроме того, в его памяти можно хранить записи различных звуковых эффектов и макроинструкции для воспроизведения записанных звуков. Хотя эта система и не способна преобразовывать печатный текст в речь, ее возможные приложения бесчисленны. Поскольку фирма "Вотракс" разработала автономный модуль Тайп'н ток - синтезатор речи, способный осуществлять преобразование печатного текста в речь,- далее мы рассмотрим его.

Речевой синтезатор Тайп'н ток фирмы "Вотракс"

Синтезатор Тайп'н ток фирмы "Вотракс" сочетает в себе ранее описанные устройства с алгоритмом преобразования печатного текста в речь. Как показано на рис. 7.29, устройство Тайп'н ток сконструировано в виде автономного синтезатора, который можно подключать в качестве периферийного устройства к любому персональному компьютеру. Он оснащен встроенным источником питания, и все его рабочие связи осуществляются исключительно через последовательный порт RS-232C. Генерацию речи синтезатор производит в двух режимах: 1) при вводе английского текста и 2) при вводе фонем.

Рис. 7.29. Речевой синтезатор Тайп'н ток фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.29. Речевой синтезатор Тайп'н ток фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Поскольку этот синтезатор имеет собственный микропроцессор и буферную память объемом 750 знаков, для генерации речи с неограниченным словарем можно применять даже очень небольшие компьютеры. Процесс генерации речи с помощью синтезатора Тайп'н ток столь же прост, как и действие последовательного построчно печатающего принтера. Действительно, синтезаторную систему в этом случае можно подсоединять к компьютеру непосредственно через последовательный порт принтера, генерируя речь вместо печатания текста.

Насколько просты соединения между синтезатором Тайп'н ток и персональным компьютером, можно видеть на рис. 7.30. На рисунке показаны соединительные разъемы и органы управления, установленные на задней панели компьютера. Слева на панели расположены выключатель питания и соединительный разъем для подключения кабеля питания. В центре задней панели установлен соединительный разъем последовательного порта RS-232, а также переключатель скорости передачи, который позволяет изменять ее значение в пределах 75-9600 бод. На правом краю панели установлен соединительный разъем для подключения громкоговорителя, в качестве которого может использоваться любой стандартный динамик с входным сопротивлением 8 Ом.

Рис. 7.30. Соединения синтезатора Тайп'н ток с компьютером. (С разрешения фирмы 'Вотракс'.)
Рис. 7.30. Соединения синтезатора Тайп'н ток с компьютером. (С разрешения фирмы 'Вотракс'.)

Внутреннее устройство синтезатора Тайп'н ток фирма "Вотракс" хранит в секрете, и поэтому мало что известно о фактическом исполнении схем, применяемых в этом устройстве. На структурной схеме (рис. 7.31) показаны лишь основные рабочие функции синтезатора, отражающие принципиальный механизм его работы.

Рис. 7.31. Структурная схема синтезатора  Тайп'н ток фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)
Рис. 7.31. Структурная схема синтезатора Тайп'н ток фирмы 'Вотракс'. (С разрешения фирмы 'Вотракс'.)

Анализ этой схемы показывает, что система может служить как периферийным устройством с пассивным откликом (прозрачным), так и прямым интерфейсом с компьютерным управлением. В любом случае поступающие через интерфейс RS-232 последовательные данные от компьютера накапливаются во входном запоминающем устройстве емкостью 750 знаков текста. По мере введения данных преобразователь печатного текста в речь преобразует английский текст в коды фонемного управления, которые направляются на микросхему речевого синтезатора SC-01. После этого фонетически генерируемая речь усиливается и выводится через громкоговоритель. Благодаря сложности используемых программных средств синтезатор Тайп'н ток может принимать фонемы и печатный текст, обеспечивая пассивный отклик вводимой информации, а также воспринимать данные из знаков верхнего и нижнего регистров в различных информационных контекстах.

Технические характеристики синтезатора Тайп'н ток приведены в табл. 7.5. В ней отражены оперативные возможности системы при работе с любым персональным компьютером, а также требования к ней. Это весьма простое и вместе с тем мощное устройство, работающее по методу формантного синтеза речи. Оно обеспечивает неограниченный словарь, но его речь, как и у всех формантных синтезаторов, по звучанию напоминает голос робота.

Таблица 7.5. Технические характеристики синтезатора Тайп'н ток
Таблица 7.5. Технические характеристики синтезатора Тайп'н ток

Синтезаторы на основе цифрового моделирования голосового тракта

Все коммерческие синтезаторы речи, описываемые в данном разделе, генерируют речь на основе цифрового моделирования голосового тракта. Основными методами речевого синтеза в системах этого типа являются методы ЛПК и Паркор. ЛПК-синтезаторы речи разрабатываются главным образом в США, тогда как метод Паркор развивается в Японии. Одно из главных препятствий, которое японцам приходится преодолевать, чтобы обеспечить сбыт своих говорящих изделий в США, связано с генерацией правильно произносимых английских слов для словаря, хранимого в ПЗУ синтезаторов. Ситуация весьма уникальна. В то время как японцы, по всей видимости, смогут научиться читать и писать английские тексты более бегло, чем это ?? способны делать даже сами американцы, маловероятно, что их английская речь окажется приемлемой для наших словарных систем на ПЗУ. Словарь таких систем должны "наговаривать" либо американские дикторы, либо японские дикторы, говорящие по-английски без японского акцента.

В табл. 7.6 перечислены выпускаемые сейчас устройства речевого синтеза, основанные на цифровом моделировании голосового тракта. Хотя эти устройства разработаны преимущественно по методу линейного предиктивного кодирования, в таблице упоминается и метод Паркор; тем самым мы хотим подчеркнуть, что и в этой области наблюдается значительная активность. (Метод Паркор в своих основных чертах очень сходен с методом ЛПК.)

Таблица 7.6. Характеристики выпускаемых речевых синтезаторов ЛПК-типа
Таблица 7.6. Характеристики выпускаемых речевых синтезаторов ЛПК-типа

Предполагается, что в ближайшие годы список этих говорящих изделий будет быстро расти. Синтез речи по методу линейного предиктивного кодирования успешно конкурирует с другими методами синтеза речи, что объясняется его большой эффективностью и меньшими требованиями к скорости передачи управляющих данных. Кроме того, по своему качеству ЛПК-речь приближается к записанной речи.

Синтезаторы HD 61885 и HD 38880, 38881, 38882 фирмы "Хитати"

Хотя говорящие изделия фирмы "Хитати" не просто приобрести из-за высокой стоимости, описывая их здесь, мы хотим познакомить читателя с общим положением дел в области генерации речи по методу Паркор. Фирма "Хитати" выпускает два основных типа синтезаторов речи в интегральной форме. Первый из них - речевой синтезатор HD 61885, К/МОП-микросхема на одном кристалле. В корпусе с 28 выводами размещены Паркор-синтезатор речи и 32-кбитовое ПЗУ, служащее речевым накопителем. Кроме того, в состав устройства входят цифро-аналоговый преобразователь и интерфейс клавишного пульта, используемого для ввода информации. Емкость ПЗУ, расположенного на кристалле, эквивалентна 26 секундам речи. В среднем Это соответствует словарю из 63 слов. Добавление к микросхеме синтезатора внешней памяти увеличивает возможную длительность синтезируемой речи на 100 с в расчете на одно ПЗУ. Поскольку к синтезатору можно добавить еще шестнадцать ПЗУ, он наделен очень широкими в словарном отношении речевыми возможностями.

Синтезатор второго типа (также в интегральном исполнении), выпускаемый фирмой "Хитати",- это микросхема HD 38880. Как и синтезатор HD 61885, он работает по методу Паркор, реализующему линейное предиктивное кодирование, однако построен на основе кремниевой микросхемы Р-МОП-типа. Основное различие между этой схемой и К/МОП-микросхемой состоит в том, что она потребляет большую мощность. Возможности хранения речи у синтезатора HD 38880 (в виде микросхемы) такие же, как и у К/МОП-варианта. Фактически, если не считать различий в полупроводниковой технологии микросхем, эти два синтезатора почти одинаковы. По принципу работы и степени сложности оба этих устройства очень сходны с синтезаторами, которые мы опишем дальше.

Синтезаторы ЭКО II и ЭКО-Джи Пи

Синтезаторы серии ЭКО, производимые фирмой "Стрит электронике корпорейшн", можно считать первыми ЛПК-синтезаторами речи для персональных компьютеров, которые появились в продаже. Основной частью синтезаторов этой серии является речевой процессор TMS-5200 фирмы "Тексас инструментс". В настоящее время фирма "Стрит электронике" изготавливает синтезаторы ЭКО двух вариантов: ЭКО II и ЭКО-Джи Пи. Модуль речевого синтезатора ЭКО II показан на рис. 7.32; это говорящее периферийное устройство, предназначенное для компьютера Эппл II, весьма компактно. Слева на фотографии схемной платы видны два свободных гнезда для ПЗУ, которые дают возможность ввести в модуль словарную память. Действуя по принципу фонетической генерации ЛПК-речи, синтезаторы серии ЭКО обладают неограниченным словарем - это отличительная черта всех формантных синтезаторов. Их речь также напоминает голос робота.

Рис. 7.32. ЛПК-синтезатор речи ЭКО фирмы 'Стрит электронике корпорейшн'. (С разрешения фирмы 'Стрит электронике корп.'.)
Рис. 7.32. ЛПК-синтезатор речи ЭКО фирмы 'Стрит электронике корпорейшн'. (С разрешения фирмы 'Стрит электронике корп.'.)

Одна из действительно привлекательных особенностей фонетического ЛПК-синтеза связана с тем, что режим построения цепочек из фонем здесь можно комбинировать с режимом прямой записи ЛПК-речи. Это позволяет добиваться естественного звучания при воспроизведении распространенных слов и сохраняет возможность перехода на фонемный режим генерации речи при воспроизведении слов заказного словаря.

Кроме того, фирма "Стрит электронике" ввела в синтезаторы серии ЭКО программу грамматического разбора текста Текстокер. Эта программа воспринимает стандартный выход в ASCII-коде, например следующий за оператором "Печатать", и преобразует его непосредственно в речевую форму. Поскольку программа Текстокер содержит почти 400 правил английского произношения, она обеспечивает корректное речевое воспроизведение 96% из тысячи наиболее распространенных слов английского языка. Используя программу Текстокер, слова, представляющие собой исключения из правил английского произношения, можно корректировать двумя способами. Первый способ исправления произношения сводится к намеренно неправильному написанию слова, с тем чтобы синтезатор "клюнул" на эту уловку и дал правильный вариант, т. е. воспроизвел слово так, как оно звучит в действительности. Скажем, в тех случаях, когда в слове имеется непроизносимая буква, слово наиболее правильно произносится тогда, когда эта буква просто опускается из вводимого ASCII-текста. Например, чтобы правильно произнести слово label, написание его намеренно искажается и оно вводится как lable.

Помимо возможности преобразования печатного текста в речь синтезаторы серии ЭКО в состоянии также генерировать речь в режиме прямого фонемного возбуждения. Этот режим более сложен, поскольку здесь возникает необходимость в фонетической связи отдельных слов. Во многих случаях, однако, это единственный реальный путь к правильному произношению слов с необычным написанием.

Рис. 7.33. ЛПК-синтезатор речи ЭКО-Джи Пи фирмы 'Стрит электронике корпорейшн'. (С разрешения фирмы 'Стрит электронике корп.'.)
Рис. 7.33. ЛПК-синтезатор речи ЭКО-Джи Пи фирмы 'Стрит электронике корпорейшн'. (С разрешения фирмы 'Стрит электронике корп.'.)

Средствами для преобразования печатного текста в речь и генерации фонетической речи располагает также и синтезатор ЭКО-Джи Пи. Эта система имеет встроенный микропроцессор и может использоваться как автономный синтезатор речи. Для сопряжения с компьютером, использующим данный синтезатор в качестве периферийного устройства, могут служить последовательный интерфейс типа RS-232 или параллельный TTL. Органы оперативного управления синтезатора ЭКО-Джи Пи (рис. 7.33) отличаются исключительной простотой и состоят всего лишь из выключателя питания и регулятора громкости. Синтезатор в основном используется точно так же, как модель ЭКО II, созданная для компьютера Эппл II. Различие между этими синтезаторами состоит только в том, что ЭКО-Джи Пи спроектирован в расчете на сопряжение через универсальный интерфейс с любым персональным компьютером. По своим возможностям в области генерации речи он не уступает ЭКО II, и в нем также использована программа Текстокер для генерации речевого вывода на основе преобразования "печатный текст - речь". Введенный в модуль ЭКО-Джи Пн микропроцессор во время генерации синтезированной речи выполняет большинство служебных операций, тем самым снимая нагрузку с компьютера. Это, естественно, повышает стоимость синтезатора, так как она включает в себя и стоимость его дополнительного "интеллекта".

Устройства М410 и VR/S 100

В состав говорящих изделий, изготовляемых фирмой "Спич текнолоджи", входит микросхема ЛПК-синтезатора, выпускаемая фирмой "Дженерал инструментс". И это не удивительно, если учесть, что специалисты фирмы "Спич текнолоджи" работали в тесном контакте с сотрудниками компании "Дженерал инструментс". Модуль речевого генератора М410 содержит 12-полюсную схему ЛПК синтезатора речи. Относительно небольшая плата (рис. 7.34) рассчитана на сопряжение с параллельным ТТЛ-портом компьютера любой микропроцессорной или микрокомпьютерной системы. Модуль наделен встроенным словарем объемом до 120 слов и автономным звуковым усилителем, рассчитанным на подключение громкоговорителя с входным сопротивлением 8 Ом. Он также оснащен микропроцессором 8039 с внутренним программированием, который предназначен для управления голосовой периферийной микросхемой. Словари для синтезатора М410 поставляет сама фирма "Спич текнолоджи"; они строятся на стираемых ППЗУ типа 2716 и 2732. Помимо кодирования слов для стандартных словарей фирма "Спич текнолоджи" за дополнительную плату производит также кодирование заказных словарей для любых речевых систем.

Рис. 7.34. Плата синтезатора речи М410 фирмы 'Спич текнолоджи корпорейшн'. (С разрешения фирмы 'Спич текнолоджи корп.'.)
Рис. 7.34. Плата синтезатора речи М410 фирмы 'Спич текнолоджи корпорейшн'. (С разрешения фирмы 'Спич текнолоджи корп.'.)

Чтобы оценить сложность схемы синтезатора М410, обратимся к рис. 7.35. Хотя большую часть данной структурной схемы занимают микропроцессор и сопряженные с ним компоненты памяти, здесь также представлена микросхема речевого синтезатора (U5), которая показана вместе с ее интерфейсом для микропроцессора и выходным звуковым усилителем. Программа для специального процессора, входящего в состав микропроцессора 8039, хранится в СППЗУ-памяти, занимая ее первые примерно 900 байт. В этих адресных ячейках можно хранить данные словаря. Учитывая скромные размеры этого устройства, его можно отнести к очень мощным речевым синтезаторам.

Рис. 7.35. Структурная схема синтезатора речи М410. (С разрешения фирмы DD обычно подсоединена к VСС. Для получения независимого питания звуковой цепи (6-10 В) соединительную перемычку следует разорвать. 3. Вместо Р2 и С4 для громкоговорителя (8 Ом) устанавливается альтернативный компонент.">
Рис. 7.35. Структурная схема синтезатора речи М410. (С разрешения фирмы "Спич текнолоджи корп.".) 1. Выбор соединения для 2716/2732 (показано в положении 2716). 2. Линия напряжения VDD обычно подсоединена к VСС. Для получения независимого питания звуковой цепи (6-10 В) соединительную перемычку следует разорвать. 3. Вместо Р2 и С4 для громкоговорителя (8 Ом) устанавливается альтернативный компонент.

Вторым периферийным синтезатором речи, предлагаемым фирмой "Спич текнолоджи", является генератор речи типа VR/S100. Это более крупный модуль, который рассчитан на подключение к шине S-100 и обладает примерно теми же возможностями, как и синтезатор получения независимого питания звуковой цепи (6-10 В) сое для громкоговорителя (8 Ом) устанавливается альтернативный М410. Важнейшее различие между этими двумя устройствами связано с тем, что в синтезаторе VR/S100 может одновременно использоваться до двух микросхемных синтезаторов речи, что позволяет получать с одной платы два речевых выхода. Таким образом, здесь возможен одновременный вывод двух различных сообщений, что очень удобно в таких приложениях, как многоканальные телефонные системы. Схемная печатная плата устройства VR/S100 (рис. 7.36) содержит встроенный микропроцессор и микросхему синтезатора речи. Система обеспечивает формирование сообщений длиной до 128 слов для двух одновременно работающих линий.

Рис. 7.36. Плата синтезатора речи VR/S 100 фирмы 'Спич тек-нолоджи корпорейшн'. (С разрешения фирмы 'Спич текнолоджи корпорейшн'.)
Рис. 7.36. Плата синтезатора речи VR/S 100 фирмы 'Спич тек-нолоджи корпорейшн'. (С разрешения фирмы 'Спич текнолоджи корпорейшн'.)

Словари для этого речевого генератора можно формировать на основе стандартного словарного состава или же генерировать из заказной речи, которую изготовитель кодирует за дополнительную плату.

Устройство Спич 1000, SP 1020 и Проуз 2000

Это еще одни говорящие изделия фирмы "Телесенсори спич системе". Помимо синтезаторов речевого сигнала, который был описан ранее в данной главе, компания изготовляет речевые синтезаторы, генерирующие синтезированную речь по методу ЛПК. Первое из этих изделий, Спич 1000, представляет собой плату синтезатора речи большого размера, которая на рис. 7.15 показана на заднем плане. Хотя синтезатор Спич 1000- довольно дорогое периферийное устройство, он отличается высокой эффективностью.

Метод ЛПК-синтеза, используемый в устройстве Спич 1000, опирается на 12-полюсный многозвенный фильтр, который позволяет построить цифровую модель голосового тракта человека. И поскольку схемная плата синтезатора включает микропроцессор 8085А, устройство обладает достаточным "интеллектом", чтобы реагировать на внешние команды и выполнять операции по осуществлению речевого выхода независимо от ведущего компьютера. Структурная схема платы синтезатора Спич 1000 изображена на рис. 7.37. Анализ этой схемы показывает, что плата действительно представляет собой гибкий и многосторонний по своим возможностям речевой синтезатор, отличающийся высоким качеством воспроизведения. Он может синтезировать разные голоса: мужские и женские, говорящие как на одном, так и на многих языках.

Рис. 7.37. Структурная схема устройства Спич 1000 фирмы 'Телесенсори спич системе'. (С разрешения фирмы 'Телесенсори спич В системе'.)
Рис. 7.37. Структурная схема устройства Спич 1000 фирмы 'Телесенсори спич системе'. (С разрешения фирмы 'Телесенсори спич В системе'.)

Синтезатор Спич 1000 может работать в режиме управления запросами на прерывание или в режиме запрашивающих команд. Для получения 8-разрядной информации с ТТЛ-схем он подключается к интерфейсу через шину Мальтибас или параллельный порт. Для вывода речи используется, кроме того, стандартный последовательный порт RS-232C. Поскольку емкость встроенной памяти составляет 458 кбит, синтезатор Спич 1000 способен говорить без повторов почти 200 с подряд. Словарь для этого синтезатора можно составить на основе стандартного словарного списка или путем заказного кодирования слов для специально формируемого словаря. Эту работу за соответствующую плату выполняет фирма "Телесенсори спич системе".

Одноплатный синтезатор речи выпускается в виде автономного устройства, включающегося по запросу. В этом варианте в его состав входят источник питания, кожух и интерфейс для связи с внешним электронным компьютером. В таком виде он известен под названием "периферийное говорящее устройство SP1020". Автономный ЛПК-синтезатор речи, изображенный на фотографии рис. 7.38, в принципе ничем не отличается от одноплатного синтезатора Спич 1000 - ему лишь приданы средства для самостоятельной работы. Благодаря своей гибкости эта система, снабженная последовательным интерфейсом RS-232C, безусловно, может использоваться очень широко. Чтобы познакомиться с качеством речи синтезатора Спич 1000, достаточно набрать демонстрационный телефонный номер фирмы "Телесенсори спич системе". Соединившись таким образом непосредственно с компьютерным интерфейсом, можно услышать не магнитную запись, а непосредственно "компьютерную" речь.

Рис. 7.38. ЛПК-синтезатор SP 1020 фирмы 'Телесенсори спич системе', содержащий плату Спич 1000. (С разрешения фирмы 'Телесенсори спич системе'.)
Рис. 7.38. ЛПК-синтезатор SP 1020 фирмы 'Телесенсори спич системе', содержащий плату Спич 1000. (С разрешения фирмы 'Телесенсори спич системе'.)

Помимо двух уже упомянутых изделий фирма "Телесенсори спич системе" изготовляет также систему, преобразующую печатный текст в речь,- преобразователь "текст - речь" Проуз 2000. Этот синтезатор в одноплатной конфигурации изображен на рис. 7.39. В состав данного "разумного" говорящего модуля входит фирменная программа речевого синтеза по правилам, разработанным фирмой "Телесенсори спич системе", что дает пользователю возможность применять практически неограниченный словарь. Система работает по принципу преобразования текста, закодированного ASCII-кодом, в аллофоны и обеспечивает речь, отличающуюся высокой степенью разборчивости. Кроме того, из текста автоматически выбираются интонационные характеристики, свойственные речи человека, которые затем вводятся в выходной речевой сигнал; это позволяет получить речь, имеющую естественное звучание.

Рис. 7.39. Плата преобразователя 'текст - речь' типа Проуз 000 фирмы 'Телесенсори спич системе'. (С разрешения фирмы лелесенсори спич системе'.)
Рис. 7.39. Плата преобразователя 'текст - речь' типа Проуз 000 фирмы 'Телесенсори спич системе'. (С разрешения фирмы лелесенсори спич системе'.)

Устройство Проуз 2000 продается в одноплатном варианте, как и устройство Спич 1000, но может выпускаться в кожухе, в котором помимо этой платы помещен источник питания и установлены необходимые соединительные разъемы. Сопряжение с ведущим компьютером может выполняться через последовательный порт RS-232, поскольку в составе устройства имеется микропроцессор 8086. Скорость передачи данных, необходимая для обеспечения речевого выхода, составляет всего 100 бит/с. С качеством речевого выхода синтезатора Проуз 2000 при прямом преобразовании печатного текста в речь можно также ознакомиться, набрав демонстрационный телефонный номер фирмы.

Устройство Спик энд спелл фирмы "Тексас инструментс"

Возможно, покажется странным, что это устройство характеризуется как периферийное устройство речевого синтеза; однако здесь нет ошибки. Несколько компаний уже изготовили интерфейсы, обеспечивающие возможность сопряжения устройства Спик энд спелл с портом персонального компьютера. Поскольку выпущенное фирмой "Тексас инструментс" обучающее устройство было первым коммерческим изделием, в котором использовался ЛПК-метод генерации речи, оно быстро нашло применение и в качестве речевого синтезатора.

Устройство Спик энд спелл включает микросхему для речевого синтеза TMS5100 и заказной вариант 4-разрядного микропроцессора TMS1000. Так как фирма "Тексас инструментс", проявив предусмотрительность, снабдила схемную плату синтезатора Спик энд спелл портом для расширения словаря, в дальнейшем были изготовлены интерфейсы, обеспечивающие непосредственное соединение этого устройства с компьютерами нескольких типов. Этот порт изображен в правом верхнем углу структурной схемы устройства Спик энд спелл (рис. 7.40).

Рис. 7.40. Схема устройства Спик энд спеллфирмы
Рис. 7.40. Схема устройства Спик энд спеллфирмы "Тексас инструментс". (В старых моделях выпрямителей мост адаптера переменного тока отсутствует.)

Один из периферийных интерфейсных преобразователей для устройства Спик энд спелл выпускает фирма "Перком дейта компани" (Гарленд, шт. Техас). Интерфейс спроектирован в расчете на сопряжение устройства Спик энд спелл через его расширительный порт с компьютером TRS-80, а также обеспечивает управление работой синтезатора от его встроенного словаря. Каждое слово словаря подвергается внешней выборке и произносится путем использования команд peek или poke. Хотя комбинации устройств Спик-2-Ми-2 фирмы "Перком" и Спик энд спелл фирмы "Тексас инструментс" представляет собой очень недорогой интерфейс для синтеза речи по методу ЛПК, резидентный словарь синтезатора Спик энд спелл страдает отсутствием слов из повседневной практики. Некоторые из недостающих слов можно генерировать, введя с помощью интерфейса дополнительные модули, обеспечивающие расширение словаря.

Еще одним изготовителем интерфейсных модулей для устройства Спик энд спелл является фирма "Ист-коуст майкропродактс" (Одентон, шт. Мэриленд). В отличие от фирмы "Перком" эта компания не держит в секрете принцип действия своего устройства, давая пользователям возможность не только управлять выходом синтезатора Спик энд спелл, но и производить считывание его словаря в память. Интерфейс спроектирован в первую очередь для микропроцессоров 6502 и соединяется с ними через параллельный порт 6522.

Устройство TMS5200

Среди многочисленных устройств для генерации по методу ЛПК, выпускаемых фирмой "Тексас инструментс", микросхема речевого процессора типа TMS5200, вероятно, наиболее интересна. Она является центральной частью ЛПК-синтезатора, выпускаемого фирмой "Стрит электроник корпорейшн", и изготовляется фирмой "Тексас инструментс" в составе пробных наборов типа TMSK101 и TMSK102. Фирма "Тексас инструментс" держит в секрете технологию своих говорящих устройств, и поэтому об их конструктивных особенностях мало что известно.

Портативная система для анализа и синтеза (PASS)

Одной из последних разработок фирмы "Тексас инструментс" является портативный генератор-преобразователь "речь - ЛПК-код". Относительно этой системы имеются некоторые сведения, что позволяет нам привести ее описание. Это устройство, называемое портативной системой для анализа и синтеза (PASS), представляет собой прототип конструкции генератора-преобразователя "речь - ЛПК-код", работающего в реальном времени. До недавних пор формирование ЛПК-параметров речи осуществлялось только с помощью больших универсальных компьютеров. Новая портативная система PASS (рис. 7.41), лмнеидимому, будет весьма дорогой. Устройства такого типа предполагается распределить по различным региональным центрам по всей стране с целью применения в качестве средств кодирования заказных словарей ЛПК-речи. Создание этой портативной высокоскоростной системы имеет огромное значение для всей области синтеза речи и генерации кодов по ЛПК-методу.

Рис. 7.41. Система ЛПК-кодирования PASS фирмы 'Тексас инструментс'
Рис. 7.41. Система ЛПК-кодирования PASS фирмы 'Тексас инструментс'

При работе с системой PASS говорящий просто наговаривает слова в стандартный микрофон и менее чем через 1 с после ввода очередного элемента получает цифровой выход закодированной ЛПК-речи. Сформированный ЛПК-код направляется через последовательный порт PS-232 непосредственно компьютеру или принтеру. В состав системы PASS входит также ЛПК-синтезатор, который дает пользователю возможность перед получением эквивалентных ЛПК-кодов прослушать наговоренные им сообщения с целью их проверки. Когда эта система получит достаточно широкое распространение, популярность ЛПК-синтезаторов речи, безусловно, возрастет. Описанное устройство - первая доступная портативная система, предназначенная для ЛПК-кодирования речи непосредственно в реальном времени.

На этом мы завершаем наш обзор выпускаемых ныне говорящих устройств. Хотя, возможно, уже появились и другие изделия подобного типа, отсутствие их в обзоре - не наша вина. Область речевого синтеза развивается столь быстро, что даже если бы все издание такой книги, как наша, было завершено в один день, вряд ли мы могли бы дать исчерпывающий список всех изделий. Тем не менее основные устройства, существующие сейчас, нами были отмечены.

предыдущая главасодержаниеследующая глава








© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь