НОВОСТИ   БИБЛИОТЕКА   ЮМОР   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  




предыдущая главасодержаниеследующая глава

9-3. Информационно-поисковые системы

В настоящее время по функциональному назначению информационно-поисковые системы можно разделить [Л. 60-62] на следующие типы:

ИПС для науки (обеспечивает разработчиков максимально доступной информацией).

ИПС для промышленности (контролирует производственные процессы и организует учет и автоматизацию методов обработки информации).

ИПС для руководства промышленными предприятиями, транспортом и торговлей (помогает руководителям находить эффективные решения).

ИПС для военных целей (предназначена для оперативной обработки входной информации. Например, автоматизированные системы управления средствами ПВО).

ИПС для библиотек (осуществляет отбор и приобретение книг посредством системы каталогов, соответствующей темпу обновления фонда).

ИПС для медицинских учреждений (создает систему прогнозирования, реализующую принципы машинной диагностики заболеваний).

Перечисленные сферы применения информационно-поисковых систем дают представление о многообразии предъявляемых к ним функциональных требований и позволяют разделить их на два класса: 1) фактографические системы, осуществляющие поиск значений данных (фактов) в ответ на запрос и 2) документальные системы, осуществляющие поиск документов, рассматриваемых как неделимое целое и выдачу их абоненту.

Для отыскания в массиве определенного элемента информации необходимо сформулировать на некотором языке (обычно специфично сокращенном естественном языке) что именно нужно узнать, в каких записях и массивах это может быть найдено. Затем происходит сравнение требований абонента с хранящейся информацией и, наконец, извлечение информации. При составлении запроса на информацию, хранящуюся в документах массива, могут быть произведены две различные операции. Одна из них определяет, содержит ли хранящийся документ данные того типа, который определен запросом (типично для фактографических систем), другая операция определяет степень релевантности документов, т. е. соответствия полученного документа запрошенному (типично для документальных систем).

Для эффективного выполнения поиска термины индексирования темы документа или запроса, составляющие содержание информационно-поискового языка (ИПЯ), должны быть контролируемы. Для осуществления такого контроля создается некоторый нормативный список или контролируемый словарь терминологии. Индексация документов происходит в соответствии с их предметным содержанием с помощью словаря терминов, т. е. создается поисковый образ или краткое описание содержания документа. Существует несколько разновидностей построения ИПЯ.

В языках иерархической классификации в основе лежит предположение, что темы поиска могут быть подразделены на некоторые более конкретные вопросы и этот процесс может быть повторен иерархически несколько раз, пока не будет создана структура, в данном случае иерархия, охватывающая область всех тем, с которыми будет работать система. Это фиксированное множество дескрипторов (рубрик), которые соответствуют допустимым темам, что очень удобно при пользовании ими. В качестве примера иерархической классификации можно назвать универсальную десятичную классификацию (УДК).

В системах предметных заголовков, как правило; ИПЯ используется для описания уже имеющейся, а не ожидаемой в будущем информации (см. табл. 9-1). Типичными представителями этого класса являются каталоги литературы по заголовкам: математика, автоматика, машиностроение и т. д. Словарный состав языка предметных заголовков обычно состоит из'терминов и фраз естественного языка. Предметные заголовки для удобства потребителей иногда располагаются в алфавитном порядке. В этом языке путем подразделения уже имеющихся предметных заголовков может быть создано некоторое подобие иерархической структуры. Это упрощает разработку ИПЯ, однако отсутствие структуры затрудняет его машинное использование. Примеры использования языка достаточно часто встречаются в каталогах малых библиотек.

Характерная особенность описанных выше языков состоит в том, что число понятий, которые могут быть с их помощью образованы, заранее фиксировано. Так как иерархически связанный термин включает в себя все вышестоящие термины, уже невозможно изменить его значение или придать ему другой оттенок. Языковые системы, имеющие такую структуру, часто называются "предкоординированными системами", т. е. термины должны быть заранее "скоординированы".

В словарных составах "предкоординированных" систем должны оставаться пробелы для описания предметных областей. Это имеет особое значение для библиотек научной литературы, в которые постоянно вводятся новые понятия. Для таких систем разработаны ИПЯ, позволяющие использовать несколько дескрипторов для поискового образа. Такое индексирование обычно называется индексированием ключевыми словами или координатным индексированием (соответственно используется термин дескрипторный ИПЯ). Характерной особенностью этих языков является использование большого количества дескрипторов на каждый поисковый образ для описания как можно большего числа аспектов документа. Здесь исходные термины (ключевые слова) словаря не влияют друг на друга. Отдельные термины "техника" и "ракета" не означают понятия "ракетная техника". Для его образования необходимо ввести некоторую "связку" понятий "техника" - "ракета"; скоординировать их отношение. Отсутствие структурных связей между ключевыми словами дает возможность включать или исключать их из словарного состава. Это делает языки легко приспосабливаемыми к изменениям охватываемых ими предметных областей. Из-за функциональной особенности языков индексирования ключевыми словами, состоящей в том, что выражение поискового образа осуществляется посредством использования комбинаций классов (понятий) и установления отношения (координации) между ними, не заложенными заранее в систему словаря, они называются "посткоординируемыми"-. Один из языков такого типа, который называют языком ключевых слов с фиксированным словарным составом, лишь незначительно отличается от языка предметных заголовков.

Главное отличие ИПЯ ключевых слов от ИПЯ предметных заголовков заключается в том, что ключевые слова обычно короче предметных заголовков (как правило, это единичные слова), а также в том, что объем полного словарного состава (возможных образованных терминов) значительно больше. Несмотря на практическое отсутствие синтаксиса языки ключевых слов выполняют свое назначение, так как их легче приспосабливать к изменениям описываемых предметов, когда название предмета точно не совпадает с предметным заголовком. Примером такого языка является язык известного тезауруса ASTIA (см. табл. 9-2).

Иногда индексация документа происходит по тем же словам, которые использовал автор, а не по какому-то множеству предварительно отобранных слов (нормативному словарю), приблизительно синонимичных желаемым словам. Эти ИПЯ называются языками со свободным словарным составом или со свободной системой ключевых слов.

Для ИПЯ с наиболее развитым синтаксисом различные дескрипторы изменяют значение друг друга. Одним из простейших примеров такого синтаксиса является команда вычислительной машины. Первая часть команды - операция, вторая - адрес операции. Оба дескриптора (команда и адрес) выражаются с помощью элементов одного и того же словарного состава - чисел. Однако благодаря приданию различным позициям чисел различных значений создается язык, обладающий большой гибкостью. Такой способ позволяет использовать контекст для устранения многозначности в искусственных языках подобно тому, как это делается в естественном языке. Например, понятие "лук, оружие" отлично от понятия "лук, растение". Первое понятие в этих двух примерах интерпретируется так, как подсказывает более общее второе понятие. Различные роли, которые играют дескрипторы в таких языках, называются фасетами. Соответственно язык называется языком фасетного индексирования, представляющим подкласс ИПЯ с синтаксисом. В фасетном индексирующем термине каждый фасет играет точно определенную синтаксическую роль, что позволяет легко разложить термин на составляющие дескрипторы.

Поисковое предписание или запрос представляет собой форму связи, с помощью которой потребитель запрашивает хранилище информации. Авторы создают документы и передают их специалистам, где они индексируются в соответствии с некоторой схемой кодирования. Процесс формулирования интересов потребителя в виде поискового предписания аналогичен процессу индексирования и составления поискового образа.

Вопрос, сопоставления запроса и поискового образа переходит в вопрос разработки некоторого синтаксиса поисковых предписаний, устанавливающего логические связки между терминами поискового предписания и необходимые соотношения между значениями термина в поисковом предписании и в поисковом образе. Можно привести следующий пример синтаксических правил поискового запроса:

  1. Роль связки между терминами поискового предписания могут играть операторы "И", "ИЛИ", "НЕ".
  2. Термин поискового предписания может быть "равен", "не равен", "шире" или "уже" термина поискового образа.
  3. Если поисковый образ состоит из фасетов, то правила для фасетов применимы и к поисковому предписанию. В том и другом случае это - логическое объединение (фасет) терминов.

Функция сопоставления запрос-ответ не обязательно является двоичной функцией решения (ДА-НЕТ), которая обеспечивает четкое различие между совпадающими и не совпадающими с запросом поисковыми образами, что типично для фактографических систем. В общем случае эта мера совпадения называется релевантностью поискового образа запросу. Для выдачи абоненту того или иного поискового образа на основании его релевантности требуется функция решения. Эта функция в конкретных случаях принимает различные формы. Ответ на вопрос считается правильным, если значение функции релевантности превышает некоторое пороговое значение.

В простейших случаях вычисления функции релевантности подразумевается присутствие некоторой меры информативности индексирующих терминов. Очень часто поисковый образ и поисковое предписание представляются некоторыми векторами в предметном пространстве с координатами, равными "информативности" отдельных терминов. В таких случаях в качестве меры релевантности используется взаимная ориентация векторов, в частности их скалярное произведение.

предыдущая главасодержаниеследующая глава








© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь