Сравнивая три метода генерации искусственной речи, важно прежде всего определить понятие "искусственная (синтезированная) речь". Существуют по крайней мере два основных критерия, по которым можно судить, что речь, воспроизводимая компьютером, в самом деле является искусственной.
Во-первых, если компьютер генерирует действительно "синтетическую" речь, то произносимые им слова не должны быть словами, предварительно сказанными человеком и затем введенными в память компьютера. Наиболее уместна здесь аналогия с "магнитофоном", роль ленты в котором выполняет цифровая или электронная память. Действительно, если слова или фразы, которые произносит компьютер, были предварительно "наговорены" человеком (лично вами или кем-то на предприятии, изготовившем интегральные схемы), то в таком случае речь компьютера следует считать восстановленной. В речевом "тахометре" представлены два метода получения восстановленной речи: метод непосредственного кодирования сигналов и метод ЛПК-синтеза. Эти методы существенно различаются по способам реализации, но в обоих из них обычно требуется предварительно наговоренный словарь, который в дальнейшем используется при восстановлении речи. Таким образом, единственным методом получения действительно синтезированной речи оказывается метод фонетического синтеза.
Разумеется, синтезированная при этом речь по своему звучанию менее похожа на речь человека, чем в двух других случаях. По существу, на современном уровне развития техники речь, приемлемую для нашего слуха, дают только методы с восстановлением речи. Настоящая же "синтетическая" речь фонемного синтезатора по своему звучанию неестественна. Другими словами, если вы хотите иметь действительно синтетическую речь, то должны быть готовы к тому, что речь вашего компьютера будет звучать "механически". Если же вы предпочтете использовать один из методов восстановления речи, то звучание вашей системы будет приятным для слуха и близким к нормальному произношению человека.
Второй критерий, определяющий искусственность речи, связан с основной теоремой из области сбора информации - теоремой выборок или отсчетов. Много лет назад Генри Найквист из научно-исследовательской Iфирмы "Белл телефон лабораторис" установил, что для адекватной выборки и запоминания типичного аналогового сигнала частота выборок должна по меньшей мере вдвое превышать наивысшую частотную компоненту в обрабатываемом сигнале1. Эту теорему можно проиллюстрировать следующим примером. Если нужно делать выборки речевого сигнала, наивысшие частотные компоненты которого имеют частоту около 4 кГц, то частота выборок должна быть не менее 8 кГц. Кроме того, если мы хотим получить сравнительно понятную восстановленную речь, при каждой выборке нужно запоминать амплитуду колебаний, что потребует по меньшей мере 4 бит.
1 (В отечественной литературе данный критерий известен как теорема Котельникова.- Прим. ред.)
Таким образом, умножив 4 бит на частоту выборок 8 кГц, мы получим битовую частоту выборок, равную приблизительно 32 000 бит/с. Поскольку обычно речь отличается некоторой избыточностью (информации) и минимально вразумительную речь можно получить, когда частоты наивысших частотных компонентов речи составляют лишь 2 кГц, нижний предел битовой частоты выборок должен составлять 16 000 бит, что и показано на диаграмме "тахометра" речи (рис. 6.1). Если же мы какими-то средствами восстанавливаем речь такого же качества при частотах выборки ниже расчетного значения (16 000 бит/с), то получаем речь, которая перед этим не дискретизировалась. Отсюда второе возможное определение искусственной речи, согласно которому методы фонетического и ЛПК-синтеза дают действительно искусственную речь. По существу, любую систему речевого вывода, работающую со скоростью менее 16 000 бит/с, можно считать создающей искусственную речь. Но независимо от принятой терминологии каждый из названных методов синтеза речи со всеми присущими ему достоинствами и недостатками предназначен для получения речевого вывода информации из компьютера. С этих позиций приведенные выше доводы становятся несущественными. Целесообразно выбрать тот из методов, который больше подходит для данного компьютера и лучше соответствует возможностям пользователя. Рассмотрим теперь более подробно способы реализации каждого из трех основных методов синтеза речи.