Задачи опознания можно разбить на типы, исходя из: вида представления информации; числа образов, подлежащих опознанию; количества априорных сведений о свойствах опознаваемых образов.
По виду представления информации можно выделить два типа задач опознания, которые условно назовем "человеческими" задачами опознания и "нечеловеческими".
В большинстве жизненных ситуаций для человека "опознание есть первая ступень переработки информации, поступающей из окружающего мира".
"Переработку поступающей извне информации, приводящую к опознанию, производит мозг (участие сознания не обязательно). Проблема, которая нас интересует, состоит в том, чтобы переложить функцию опознания на машину" [1. 1].
Под "человеческими" будем подразумевать такие задачи опознания, к которым человек подготовлен в процессе эволюции и жизненного опыта и способен относительно сложные задачи решать сравнительно легко.
Задачи, которые способны решать на основе интуиции и опыта относительно небольшое количество людей, а большинство людей не подготовлено эволюцией и жизненным опытом к решению таких задач, отнесем к "нечеловеческим".
К "человеческим" задачам в первую очередь относятся задачи опознания зрительных и звуковых образов: задачи опознания картинок, цифр, букв, речевых команд, голоса диктора и т. д.
В этих задачах опознания (для конкретности, скажем, зрительных и речевых образов) человек, перерабатывая весьма большое количество информации, почти всегда способен сформировать понятие образов, подлежащих опознанию, по небольшому числу показов их реализаций.
С другой стороны, существует ряд задач переработки значительно меньшего количества информации, которые тем не менее для человека нетривиальны ("нечеловеческие" задачи). Чаще всего эти задачи связаны с обработкой ряда измерений (параметров), зависимость между которыми неизвестна и число которых достигает десятков и более. К таким задачам относятся, например, задачи технической и медицинской диагностики, некоторые задачи прогнозирования и ряд других. Удовлетворительное решение этих задач требует от человека весьма высокой квалификации в данной области.
Дело, видимо, объясняется тем, что форма представления информации в виде последовательности чисел неудобна и непривычна для человека. Доступные задачи опознания зрительных образов, которые мы называем "человеческими", почти наверняка сделаются непосильными для человека, если реализации будут представлены не в виде картинок, а в виде последовательности чисел, соответствующих координатам положения точек на плоскости и яркости.
Ввиду того, что для решения "человеческих" задач объем информации, который необходимо обработать, чрезвычайно велик, построение опознающих автоматов здесь наталкивается на большие трудности. И все же построение автоматов для решения "человеческих" задач иногда бывает необходимо, когда присутствие человека невозможно (напр., автоматы, работающие на других планетах), когда одна и та же операция опознания повторяется большое число раз (напр., сортировка писем), когда необходима оперативная связь человека с машиной в наиболее естественной для человека форме устной или письменной речи (напр., совместная работа человека и ЭВМ).
В "нечеловеческих" задачах опознания, благодаря значительно меньшему объему информации, нуждающейся в обработке, автомат конкурентноспособен не только как более быстродействующая система. К настоящему времени имеется ряд примеров, когда при решении задач медицинской и технической диагностики автомат совершает меньшее число ошибок, чем человек, квалифицированный в данной области.
При делении задач опознания по числу образов можно выделить три типа задач: задачи опознания двух образов, задачи опознания большого числа образов и задачи опознания нескольких образов из неограниченного числа образов.
Обычно первые два типа задач принято рассматривать как один, так как формально задачу второго типа можно разбить на совокупность задач дихотомии. Однако, как это показано в главе II, прямое решение задачи разделения многих образов может оказаться значительно целесообразнее.
К третьему типу задач опознания относятся, например, задачи опознания ограниченного круга лиц по их портретам [1. 11]. В этих задачах необходимо отличать изображения заданного круга людей и выделить изображение каждого из них из неограниченного числа портретов других людей, которых автомат должен отнести к классу "не знаю".
Задачи опознания можно также разделить по количеству априорных сведений о свойствах опознаваемых образов на вырожденные и невырожденные.
Начнем с вырожденного случая, когда имеются априорные сведения о том, что для каждого образа существует идеальный эталон (или малое число идеальных эталонов), а различие между испытуемой реализацией и эталоном обусловливается стационарными случайными помехами с априорно известными распределениями [1. 1]. К таким задачам относится, например, опознание знаков типографской или машинописной печати. Такие вырожденные задачи опознания легко сводятся к задачам приема сигнала на фоне случайных шумов, задаче, достаточно хорошо исследованной и имеющей известные оптимальные методы решения [1. 12].
К другому вырожденному случаю относятся задачи опознания, в которых все члены каждого класса могут быть получены один из другого детерминированным, наперед заданным преобразованием. Например, изображения определенных букв, предъявляемых в различных параллельных проекциях [1.1].
К вырожденным задачам опознания, видимо, могут быть отнесены и некоторые задачи, в которых априори известны типы (многомерных) вероятностных распределений образов и каждый образ представлен выборкой своих реализаций. Наиболее адекватным математическим аппаратом для решения таких задач является теория статистических решений [1. 8, 1. 13, 1. 14].
В подавляющем большинстве практические задачи опознания являются невырожденными, и, кроме того, как правило, типы условных многомерных распределений образов неизвестны.
Общим для всех невырожденных задач опознания является то, что эти задачи не могут быть поставлены четко. Действительно, наличие четкой математической формулировки того, что подразумевается под образом и отличает один образ от другого в данной задаче, делает эту задачу вырожденной.
Понятие образа в невырожденных задачах опознания формируется с помощью "показов" некоторой конечной выборки его представителей (учебная выборка).
Прежде чем перейти к более детальному рассмотрению невырожденных задач, обратимся к геометрической трактовке задачи опознания [1. 9, 1. 15].
Геометрически объект опознания (реализация) может быть представлен точкой (вектором) в многомерном пространстве исходных параметров (исходных измерений), описывающих в совокупности те свойства, которые могут быть полезны для разделения образов. В таком случае объекты опознания отображены в пространстве исходного описания как множества точек, относящихся к различным образам, а решающее правило должно отличать каждое множество от другого.
Невырожденные задачи опознания задаются только показом относительно небольшого количества представителей каждого образа. Такая малая информация о заданном алфавите образов не позволяет четко сформулировать метод решения, адекватный задаче.
Поэтому, прежде чем перейти к решению задачи, приходится создавать ее математическую модель, которая должна достаточно полно отражать свойства образов, нужные для их разделения.
Модель совокупности опознаваемых образов или предположения о них содержатся в явном или неявном виде в каждом подходе к опознанию.
Чем шире модель, тем более обширный круг задач можно решать на основе этой модели. Но результаты решения данной задачи зависят от того, насколько общая модель близка к конкретной задаче опознания.
Последнее обстоятельство в качестве неотъемлемой части проблемы опознания выдвигает эксперимент, сложность которого для практических задач опознания зачастую заставляет дополнительно решать ряд нетривиальных инженерных проблем.
Рассмотрим некоторые модели задач опознания образов.
В некоторых моделях допускается пересечение образов в пространстве исходных параметров. Целесообразным ограничением в таких задачах является то, что оптимальная в статистическом смысле решающая функция является достаточно гладкой. В качестве примера задачи, адекватной этой статистической модели, можно привести задачи опознания образов, природа которых связана с шумами. Сюда же могут быть отнесены некоторые задачи медицинской диагностики.
Более жестким, но в то же время практически оправданным, является предположение о том, что образы в пространстве исходных параметров е не пересекаются, т. е. расстояния в исходном пространстве между множествами точек, принадлежащих к различным классам, больше некоторой конечной, не малой величины е. Величина е характеризует наименьшую "ширину коридора" между не пересекающимися образами.
Можно привести довольно много примеров задач опознания, адекватных модели s-не пересекаемости, например задача опознания речевых команд (отдельно произносимых слов). Если команда произносится четко и достаточно внятно (так называемый полный стиль произнесения) и у диктора нет явного акцента и дефектов речи, то аудитор воспринимает команды безошибочно. В этом смысле речевые команды можно считать ε не пересекающимися образами.
Четкое и внятное произнесение команд может потребовать небольшого предварительного обучения дикторов. Не следует считать, что эти требования неправомерны. Как указывал в свое время А. А. Харкевич, пользование обычными (не кибернетическими) машинами предполагает, как правило, предварительное обучение и отбор. За руль автомашины садится только человек, имеющий на это право. Совершенно естественно ввести аналогичные ограничения при пользовании также кибернетическими машинами, которыми являются опознающие устройства.
Аналогичные рассуждения могут быть приведены к задаче опознания рукописных символов.
Вместе с тем слишком жесткие требования на способ генерирования образов (напр., требования к стилизации рукописного шрифта) могут привести, с одной стороны, к большим неудобствам при пользовании кибернетической машиной, а с другой - свести задачу опознания к вырожденной. (Так, задача опознания жестко стилизованных рукописных знаков по методам решения почти не отличается от задачи опознания машинописных знаков и является вырожденной.)
В работе [1. 111 используется другая детерминистская модель, согласно которой класс порождается в результате априори неизвестных топологических преобразований над некоторой эталонной реализацией. Эта модель была использована при решении задач опознания портретов, рукописных знаков, речевых образов и некоторых других.