§ 8.2.2. Исходное описание и экспериментальный материал
Экспериментальным материалом для исследования на ЭВМ критериев оптимизации признаков и опознания речевых команд явился словарь из 11 слов, наговоренных 40 дикторами (30 мужчин и 10 женщин). Словарь состоял из десяти цифр от нуля до девяти и слова "читаю".
В качестве исходного описания использовались функции мгновенных плотностей нулевых переходов, усредненные в фильтрах с постоянной времени порядка 20 мсек (которые были предложены и исследованы в [8.11, 8.12, 8.7]): ρ-1(t) - функция усредненной частоты нулевых переходов интегрированного речевого сигнала; ρ-0(t) - функция усредненной частоты нулевых переходов ограниченного по спектру частотой 1 кгц речевого сигнала; ρ0(t) - функция усредненной частоты нулевых переходов речевого сигнала; ρ1(t) - функция усредненной частоты нулевых переходов продифференцированного речевого сигнала.
8.1. ρ-функции для реализаций слов 'два', 'ноль', 'пять', 'девять' для четырех дикторов и средние функции по сорока дикторам
Все слова были линейно нормированы по длительности, и по каждому из каналов снималось по 9 синхронных равноотстоящих отсчетов на слово. Число, характеризующее длительность произнесения слова, являлось последним 37-м параметром исходного описания.
На рис. 8.2 приведены линейно нормированные по длительности ρ-функции описания, соответствующие произнесению опознаваемого словаря одним диктором. По осям абсцисс отложены номера координат исходного описания, относящиеся к четырем ρ-функциям, а по осям ординат - амплитуды параметров. (Параметр, характеризующий длительность произнесения слова, не указан, он оказался в этой задаче неинформативен). На рис. 8.1 приведены ρ-функции для реализаций слов "два", "ноль", "пять" и "девять", произнесенные четырьмя дикторами, и средние функции по дикторам.
Из сопоставления этих рисунков видно, что усредненные по образу ρ-функции напоминают сглаженные реализации своих классов. Это является некоторым свидетельством об информативности центров тяжести в выбранном исходном описании.
8.2. Линейно нормированные по длительности ρ-функции описания слов 11, произнесенных одним диктором
8.3. Средние по сорока дикторам значения p-функций для 11 слов
Таблица 8.1. Выписка из общей матрицы корреляции для иллюстрации корреляции между ρ-параметрами
Таблица 8.2. Минимальные расстояния между реализациями различных образов в пространстве исходных параметров в метрике l2
В таблице 8.1 представлена выписка из общей матрицы корреляции (всех реализаций всех образов) параметров исходного описания образов. Таблица показывает наличие тесной корреляционной связи между парами параметров
Временные отсчеты одной и той же функции коррелированы между собой значительно слабее. Существование тесной корреляционной связи между ρ-функциями позволяет предположить, что практически вся информация об образах могла бы быть сосредоточена в меньшем числе параметров, полученных как линейные комбинации из исходных.
В таблице 8.2 представлена матрица минимальных взаимных расстояний между реализациями различных образов в пространстве исходного описания в метрике L.
Из таблицы видно, что в заданном исходном описании наиболее близкими являются пары образов "два" и "ноль", "четыре" и "читаю", "один" и "три", а наиболее далекими - "пять" и "семь", "шесть" и "читаю", "пять" и "читаю", "семь" и "восемь". Далее мы вернемся к рассмотрению этих пар образов при сравнении критериев создания признаков.
На рис. 8.3 изображены средние по всем дикторам значения ρ-функций. Качественное заключение о сходстве или несходстве средних значений для разных дикторов совпадает с данными таблицы.