Наследие [1980 Уинстон П. - Искусственный интеллект]

Люди, интересующиеся машинным зрительным восприятием, в своих исследованиях могут опираться на многочисленные предшествующие работы. Современную точку зрения на эти вопросы значительно обогатили, в частности, работы по распознаванию образов и физиологической психологии.

Методы распознавания образов позволяют решать различные задачи

Обычно системы распознавания образов состоят из двух частей: части, связанной с извлечением признаков, и части, связанной с их оценкой. Признаки представляют собой результаты измерений, проводимых на изображении, предназначенном для классификации. Эти измерения, рассматриваемые как координаты точки в некотором пространстве, позволяют идентифицировать изображение по его близости к точкам-прототипам.

Программа Янга, написанная в конце 60-х годов, показала, что такой подход является вполне адекватным для разделения клеток крови на несколько стандартных категорий: нитрофилы, эзинофилы, базофилы, лимфоциты и моноциты. Выработав некоторое семейство признаков, Янг обратил внимание на то, что клетки каждого типа занимают определенные территории в результирующем пространстве признаков, что позволило ему идентифицировать клетки, наблюдая за тем, куда ложатся признаки неизвестной клетки в этом пространстве.

Янг обнаружил, что четырех признаков оказывается достаточно в том отношении, что измеренные значения признаков, относящиеся к одному классу клеток, группируются достаточно гесно. Этот факт легко увидеть на рис. 8.1, где изображены положения некоторых выборочных клеток в двумерном пространстве признаков. Располагая такими первоклассными информативными признаками, остается лишь найти положение центров возникающих групп - кластеров, поскольку расстояния от анализируемой клетки до каждого такого кластера легко могут быть вычислены и сопоставлены друг с другом. Центр кластера может располагаться на месте какой-нибудь клетки, которая считается самым характерным примером, или, более вероятно, он может определяться путем усреднения значении признаков для заданного класса клеток.

В течение многих лет исследователи из области распознавания образов занимались достаточно серьезно математическими проблемами, поскольку во многих важных задачах свойство группирования не проявлялось столь явственно, как в примере с клетками крови. Всякого рода усложнения нарушают естественный характер описанного непосредственного подхода к задаче: точки признаков могут не концентрироваться с равной плотностью вокруг центра каждого кластера, признаки могут взаимодействовать друг с другом, образуя не сферические, а эллиптические распределения, или, что хуже всего, кластеры могут быть непохожими на классическое гауссовское или колоколообразное распределение, на котором основывается большая часть результатов статистической математики.

Рис. 8.1. Белые кровяные тельца разбиваются на несколько категорий прямыми линиями в некотором простом пространстве признаков. Для надежного разделения требуется более двух признаков. (Рисунок предоставлен автору доктором Бертольдом К. Р. Хорном.)

Аналитическое изучение таких пространств признаков оказалось достаточно трудным, поэтому наибольшая часть затраченных усилий

пришлась на соляные копи пространства признаков. Для некоторых классов проблем результаты оказались ободряющими. Современный специалист-практик, работающий в области распознавания образов, может успешно действовать, если сцены удовлетворяют двум критериям:

Эти критерии позволяют объяснить, почему классификация единичной, достаточно ярко выраженной плоской клетки крови отлична от решения вопроса о том, имеется ли в данной комнате телефон. Робот, находящийся в кабинете, может воспользоваться цветом, примерными размерами и вертикальной координатой, чтобы отличить между собой телефоны, дверные ручки и корзинки для мусора. Однако телефон выглядит совершенно иначе, если его повернуть или изменить позицию наблюдателя, но с какой стороны на него ни посмотришь, он окажет слишком малое влияние на результирующее значение любой глобально измеряемой величины. Робот, ориентированный на обстановку в кабинете, находясь в магазине спортивных товаров, попытается ответить на телефонный звонок, взяв бейсбольный мяч.

Если нужно описать комнаты и провести различие между телефонами и бейсбольными мячами, то для этого необходима теория зрительного восприятия с гораздо более глубоко развитым механизмом описания. Хорошее описание - это тема, к которой постоянно возвращаются. Для настоящей работы необходимо построить разумные процедуры описания предметной области.

Поэтому мы отклонимся от главного направления распознавания образов, оставив в стороне изящную математику пространства признаков. Нам потребуются лишь результаты в области фильтрации сигналов и повышения качества изображения, впервые использованные исследователями, работавшими в области распознавания образов. Пройдя некоторое эволюционное развитие, эти первичные операции над изображениями и сегодня выглядят эффективными.

Исследования по психологии наводят на мысль, что есть этапы, расточительные в смысле вычислительной работы

Прежде чем переходить к созданию нового процесса, здравый смысл подсказывает нам, что нужно внимательно посмотреть на уже существующие процессы с тем, чтобы скопировать их известные свойства, если они являются подходящими. Поскольку в этом отношении задача наделения вычислительных машин зрительными способностями не представляет исключения, следует задаться вопросом о том, как видят люди, поскольку, если психологи и физиологи знают несколько секретов зрения, они могут служить источником весьма ценных указаний. Они знают, например, довольно много о входных - выходных характеристиках некоторых ретинальных и кортикальных клеток в соответствии с основополагающими исследованиями Барлоу, Леттвина и его коллег, Хьюбеля, Визеля и других. По-разному размещая электроды в нервном аппарате, эти исследователи смогли понять, какие конкретные стимулы способны возбудить клетки различных типов. Леттвин с соавторами, например, установил, что один класс клеток лягушки весьма хорошо реагирует на небольшое темное пятно, пересекающее поле зрения целиком. Эти клетки известны под весьма милым названием "детекторы жучков". Это лишь один из многих типов клеток, известных для лягушки, кошки и других животных.

Из этих физиологических исследований становится очевидной одна отрезвляющая мысль: используемые вычислительные мощности поистине грандиозны. Если большая часть этой вычислительной работы не проводится до тех пор, пока этого не потребуют процедуры более высоких уровней, то, пожалуй, интеллект в какой-то мере сможет скомпенсировать недостаток ресурсов. Иначе исследователи, занимающиеся машинным зрением, должны лишь уповать на чудеса в области создания быстрых, параллельно действующих процессоров. К счастью, техника развивается настолько быстро, что работающий в "реальном времени" достаточно гибкий зрительный процессор становится практически осуществимым.

К сожалению, в том, что известно, имеется множество пробелов, и даже сегодня обширная литература по физиологической психологии зрения еще не может служить чертежом для построения такого процессора. Знание того, что делают первичные клетки, еще не определяет того, как они это делают, или что следует делать дальше. Следовательно, нельзя говорить в настоящее время о том, чтобы заставить вычислительные машины смоделировать механизм зрения биологических видящих машин. Вместо этого усилия должны быть направлены на то, чтобы, как и в случае других направлений в области машинного разума, заставить компьютер быть зрительной машиной, используя для этого всевозможные идеи. Мы должны заняться изучением вопросов в плане алгоритмов, потому что аппаратурное решение недостаточно понято, чтобы его можно было скопировать.