Одним из основных новых понятий, появившихся в результате разработки машинных методов обработки информации, в частности при переводе с одного языка на другой, поиска научно-технической информации и создания информационной Модели предприятия в АСУ, явилось понятие тезауруса информационной системы [Л. 15]. Термин "тезаурус" (его можно переводить как накопитель сокровищ), так же как и информация (в широком смысле этого слова), трудно поддается четкому определению. Его энциклопедическое толкование подразумевает совокупность знаний о внешнем мире - это так называемый тезаурус мира Т0. Все понятия внешнего мира, выраженные с помощью естественного языка, составляют тезаурус R1 из которого можно выделить частные тезаурусы путем иерархического деления с учетом соподчинения отдельных понятий (микромира, макромира) или путем выделения частей общего тезауруса мира. В последнем случае появляются тезаурусы наук THi (кибернетики и т. д.), технические тезаурусы ТТj (машиностроительного предприятия, химического предприятия и т. д.) и научно-технические тезаурусы THTki (электротехнический, радиотехнический и т. д.). Последние иногда именуются отраслевыми тезаурусами. Наконец, встречаются еще тезаурусы проблемные TПl, (плазменных энергетических установок, управления наследственностью и т. д.). Для того чтобы ЦВМ могла работать с конкретным частным тезаурусом, он должен быть строго оформлен, желательно сразу на машинно-ориентированном документе, с которого непосредственно можно производить загрузку перфокарт или перфолент. Простейшим способом тезаурус может быть оформлен в виде линейного списка (табл. 9-1).
Таблица 9-1
Такая таблица редко называется тезаурусом, так как она представляет собой просто список ключевых терминов или предметных рубрик без их раскрытия (подрубрик). Это - одноуровневый список. Практическое значение имеют многоуровневые списки предметных рубрик, или многоуровневые тезаурусы. В табл. 9-2 приведен несколько видоизмененный фрагмент знаменитого тезауруса ASTIA [Л. 60]. Здесь уже включены смысловые отношения между дескрипторами "видовой к", "родовой к", "см.", "см. также", определяющие структуру тезауруса. Не вдаваясь в подробности составления данного тезауруса, отметим только, что он подчинен правилам, составляющим синтаксис и семантику тезауруса. В нем явно присутствует несколько иерархических уровней, соподчинение между которыми строго определено. Этот тезаурус носит отпечаток информационно-поисковой службы. В нем выделены соответственно рубрики: "Кинетика реакторов", "Опасность, связанная с работой реакторов" и т. д. и группы слов, подчиненные рубрикам: "Цепные реакции" и т. д., которые называются дескрипторами (описателями). Важно обратить внимание на число дескриптивных уровней, которое определяет семантическую силу тезауруса.
Таблица 9-2
Тезаурус отличается от простого списка слов или фраз (дескрипторов) - словаря наличием иерархических связей между фразами (синтаксисом и семантикой).
Геометрически любой тезаурус можно представить в виде древовидного графа со многими начальными вершинами - источниками (рис. 9-1). На верхнем уровне расположены дескрипторы нулевого уровнена других- дескрипторы низших уровней. Каждому дескриптору нулевого уровня в тезаурусе соответствует дерево дескрипторов, которое иногда называется в информационно-поисковых системах рабочей ветвью или рабочим кустом тезауруса. В последнее время внедряется более удачный термин "синдром", означающий совокупность признаков. Каждый синдром дает расшифровку дескриптора нулевого уровня, причем чем больше уровней, тем более точно раскрывается смысл дескриптора нулевого уровня. Раскрытие смысла невозможно без указания его связей с другими дескрипторами. На рис. 9-1 эта связь указана общими дескрипторами (зачерненными вершинами). Следует сразу заметить, что разделение на дескрипторы нулевого и ненулевого уровня носит в известном смысле условный характер. В зависимости от условий конкретного информационного поиска в качестве нулевого уровня могут фигурировать дескрипторы первого или второго уровня. Так, в случае рис. 9-2 может появиться запрос о всех полупроводниках с р-n-р переходами, тогда нулевым уровнем станет первый уровень дескрипторов и т. д. В этом проявляется очень важное свойство тезаурусов ИПС, часто называемое многоаспектностью.
Рис. 9-1. Граф тезауруса
При машинной обработке информации семантика того или иного термина задается в виде дерева (рис. 9-2). Чем больше дескриптивных уровней, тем более точно раскрывается смысл термина. Машина, оперирующая с кодами (шифрами) дескрипторов, "понимает" смысл термина только с помощью его рабочей ветви. При машинной обработке информации очень часто встает вопрос об идентификации кода с дескрипторами нулевого уровня. Дело в том, что в машине вычисляются новые документы, новые термины по уже известным и требуется в конце отождествить (идентифицировать) код с образом (дескриптором нулевого уровня). Машина это может сделать только сравнением рабочих кустов тезауруса, что по существу происходит при сравнении дескрипторов соответствующих уровней.
В результате путем разработки тезауруса с дескрипторами и рабочими ветвями в инженерной практике была решена проблема семантики информации, обрабатываемой ЦВМ. Составление тезауруса - трудоемкая задача. Как правило, отраслевые тезаурусы содержат много тысяч дескрипторов, и на их составление уходят годы работы коллектива численностью несколько сотен человек. Сложность тезауруса резко возрастает с увеличением числа дескриптивных уровней. При малом числе уровней возрастают ошибки идентификации (поиска). Так, при использовании рабочих кустов "полупроводник - электронное устройство" и "радиолампа - электронное устройство" машина не сможет различить исходные термины, так как они совпадают, поэтому необходимо задать следующие уровни.
Заметим, что в обычной, немашинной практике установления смысла, семантики терминов по существу также работает изложенная выше машинная схема.
Путем длительного процесса обучения в памяти человека формируется его тезаурус мира, а если он осваивает какую-нибудь профессию, то профессиональный тезаурус. Большим подспорьем для специалиста является тезаурус, сосредоточенный в его личной библиотеке, библиотеке предприятия и т. д. Инженер, имеющий дело с электроникой, должен помнить, например, весь куст тезауруса (рис. 9-2), соответствующий ключевому слову "полупроводник", в том числе расположение его выводов, усиления и т. д. Однако, если спросить неспециалиста, что такое полупроводник, он с трудом назовет дескрипторы из сферы применения и этим ограничится, т. е. его семантическое понимание полупроводника ограниченно.
Рис. 9-2. Пример куста ключевого слова 'полупроводник'
Создание в ЦВМ модели смыслового понимания информации с помощью тезауруса является крупным достижением кибернетики и аналогично естественному накоплению знаний, веками используемому в человеческом обществе.
Тезаурусы человека строго не оформлены и не имеют четких синтаксиса и семантики, как в информационно-поисковых и других машинных системах; можно сказать, что у каждого человека своя система организации тезауруса. Но книги, в особенности технические, а также единый процесс обучения обеспечивают большое сходство организации тезаурусов у всех образованных людей. Определенная самобытность в организации тезаурусов создает предпосылки для творческой свободы и творческого многообразия, необходимые для развития интеллекта.
Однако с внедрением машинных методов обработки информации и обучения человеку все чаще и чаще придется переходить на общепринятый машинный стандарт тезауруса. Упомянутые выше свободы будут отодвигаться в высшие сферы деятельности человеческого интеллекта.
Уже из приведенной трактовки видно, что информационные тезаурусы в кибернетике несколько отличаются от традиционного их толкования, сложившегося в области информационного поиска. Кибернетики, взяв идею тезауруса из теории ИПС библиотечного типа, подвергли ее существенной переработке, особенно для АСУ. Надо заметить, что технический тезаурус предприятия при разработке АСУ значительно меньше по объему, чем библиотечный, и может насчитывать в зависимости от номенклатуры применяемых и изготовляемых изделий от сотен до нескольких тысяч дескрипторов. Но, как правило, число дескриптивных уровней должно быть большим и насчитывать десять и более уровней.