НОВОСТИ   БИБЛИОТЕКА   ЮМОР   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  




предыдущая главасодержаниеследующая глава

5. Автоматическое аннотирование и реферирование текста

В мире появилось большое число публикаций на разных языках по самым различным проблемам науки и техники, и специалисты не успевают следить за новейшими книгами и статьями по своей области знания, поэтому основное содержание новейших изданий необходимо передавать в сжатом виде - в виде аннотаций и рефератов, которые включают в себя лишь основные смысло-несущие слова, словосочетания и предложения, типичные для той или иной области знания или специальности.

В настоящее время в лингвистике существуют методы, которые позволяют оценить "важность" слова, словосочетания или предложения для некоторого множества текстов*. Эти методы могут быть использованы и электронной машиной. Суть машинного аннотирования заключается в том, что наиболее важные слова и словосочетания текста выдаются машиной в сопровождении так называемых реляторов, т. е. специальных стандартных слов:

РАССМОТРЕН, КРАТКО ОПИСАН, ДАННЫЙ ТЕКСТ ОТНОСИТСЯ К ТЕМЕ, С ПОМОЩЬЮ, ИССЛЕДОВАНЫ ЯВЛЕНИЯ, РАССМАТРИВАЕТСЯ 
СОСТАВ ОБОРУДОВАНИЯ И ЕГО ТЕХНИЧЕСКАЯ ХАРАКТЕРИСТИКА и т. п. 

* (В частности, одним из таких показателей является частота употребления знаменательного слова или словосочетания в текстах определенной тематики. Чем эта частота больше, тем более важным для данных текстов является данное слово или словосочетание.)

Допустим, в результате анализа большого количества текстов по вычислительной технике и языкознанию к числу наиболее важных, отражающих суть проблем "вычислительная техника" и "языкознание", оказались отнесенными слова и словосочетания, представленные соответственно в списках 1 и 2.

Список 1:

АЦПУ, АЛФАВИТНО-ЦИФРОВОЕ ПЕЧАТАЮЩЕЕ УСТРОЙСТВО, БЛОК УПРАВЛЕНИЯ, БЫСТРОДЕЙСТВИЕ, ВНЕШНЯЯ ПАМЯТЬ, ДИСПЛЕЙ, ДИСК, ЗАПОМИНАЮЩЕЕ УСТРОЙСТВО, ЗНАК, КОМАНДА, ЛЕНТА, 
МАШИНА, НАКОПИТЕЛЬ, ОПЕРАТИВНАЯ ПАМЯТЬ, ОПЕРАЦИОННАЯ СИСТЕМА, ПАМЯТЬ, ПЕРФОКАРТА, ПЕРФОЛЕНТА, ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ, ПРОЦЕССОР, ПУЛЬТ УПРАВЛЕНИЯ, РЕГИСТР, 
СИСТЕМА, УСТРОЙСТВО ВВОДА, УСТРОЙСТВО ВЫВОДА, УСТРОЙСТВО ОТОБРАЖЕНИЯ, ЧИТАЮЩЕЕ УСТРОЙСТВО, ЭВМ, ЭЛЕКТРОННАЯ ВЫЧИСЛИТЕЛЬНАЯ МАШИНА, ЭЛЕКТРОННАЯ МАШИНА 

Список 2:

 АБЗАЦ, АЛФАВИТ, БУКВА, ГЛАГОЛ, ЗВУК, ЗНАЧЕНИЕ, ЛИНГВИСТИКА, МОРФЕМА, НАРЕЧИЕ, ОСНОВА, ПРЕДЛОГ, ПРЕДЛОЖЕНИЕ, ПРИЛАГАТЕЛЬНОЕ, ПРИСТАВКА, СЛОВАРЬ, СЛОВО, 
СЛОВОСОЧЕТАНИЕ, СМЫСЛ, СОЧЕТАНИЕ СЛОВ, СОЮЗ, СТРУКТУРА ПРЕДЛОЖЕНИЯ, СУФФИКС, СУЩЕСТВИТЕЛЬНОЕ, ТЕКСТ, ФОНЕМА, ФОРМА СЛОВА, ЯЗЫК, ЯЗЫКОЗНАНИЕ 

Пусть для машинного аннотирования поступил следующий текст: "Современные ЭВМ являются высокопроизводительными машинами. Они имеют быстродействие в 5 млн операций в секунду и оперативную память в 2 мбайт. Можно полагать, что в будущем эти характеристики будут улучшены. Слабо меняется эффективность устройства ввода. Машины читают текст со скоростью до 1600 знаков в секунду".

Первой задачей машинного аннотирования является определение той темы, к которой относится за-данный текст. Для решения этой задачи по тексту сама ЭВМ строит частотный словарь слов и слово-сочетаний:

  1. В 5
  2. СЕКУНДУ 2
  3. БУДУТ 1
  4. БУДУЩЕМ 1
  5. БЫСТРОДЕЙСТВИЕ 1
  6. ВЫСОКОПРОИЗВОДИТЕЛЬНЫМИ 1
  7. ДО 1
  8. ЗНАКОВ 1
  9. И 1
  10. ИМЕЮТ 1
  11. МАШИНАМИ 1
  12. МАШИНЫ 1
  13. МЕНЯЕТСЯ 1
  14. МБАЙТ 1
  15. МЛН 1
  16. МОЖНО 1
  17. ОНИ 1
  18. ОПЕРАТИВНАЯ ПАМЯТЬ 1
  19. ОПЕРАЦИЙ 1
  20. ПОЛАГАТЬ 1
  21. СКОРОСТЬЮ 1
  22. СЛАБО 1
  23. СО 1
  24. СОВРЕМЕННЫЕ 1
  25. ТЕКСТ 1
  26. УЛУЧШЕНЫ 1
  27. УСТРОЙСТВА ВВОДА 1
  28. ХАРАКТЕРИСТИКИ 1
  29. ЧИТАЮТ 1
  30. ЧТО 1
  31. ЭВМ 1
  32. ЭТИ 1
  33. ЭФФЕКТИВНОСТЬ 1
  34. ЯВЛЯЮТСЯ 1

Сравнивая частотный словарь текста последовательно со словарями тем "Вычислительная техника" и "Языкознание", машина отмечает, что с первым словарем в тексте совпали 6 слов и словосочетаний (БЫСТРОДЕЙСТВИЕ, ЗНАК, МАШИНЫ, ОПЕРАТИВНАЯ ПАМЯТЬ, УСТРОЙСТВО ВВОДА, ЭВМ), а со вторым словарем - лишь одно слово (ТЕКСТ). Отсюда ЭВМ, привлекая релятор ДАННЫЙ ТЕКСТ ОТНОСИТСЯ К ТЕМЕ и добавляя название той темы, в словаре которой найдено больше всего слов, делает следующий вывод:

 ДАННЫЙ ТЕКСТ ОТНОСИТСЯ К ТЕМЕ "ВЫ-ЧИСЛИТЕЛЬНАЯ ТЕХНИКА" 

Вторая задача автоматического аннотирования - выдача краткой информации о том, что сообщается в аннотируемой статье. Такой краткой информации предшествует релятор: В ТЕКСТЕ РАССМОТРЕНЫ СЛЕДУЮЩИЕ ВОПРОСЫ, вслед за которым перечисляются те слова и словосочетания текста, которые найдены в словаре соответствующей темы вместе со стоящими перед ними в тексте словами*. Тогда машинная аннотация рассмотренного текста будет выглядеть так:

 В ТЕКСТЕ РАССМОТРЕНЫ СЛЕДУЮЩИЕ ВОПРОСЫ: СОВРЕМЕННЫЕ ЭВМ, ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ МАШИНЫ, БЫСТРОДЕЙСТВИЕ, ОПЕРАТИВНАЯ ПАМЯТЬ, ЭФФЕКТИВНОСТЬ УСТРОЙСТВА ВВОДА 

* (Эти слова перечисляются в том порядке, в котором они встречались в тексте.)

Машинное реферирование предполагает выдачу не отдельных слов и словосочетаний, а нескольких полных предложений, в которых содержится основное содержание всего текста. Для выявления таких смысло-несуших предложений существуют различные методы. Простейший из них связан с поиском в тексте таких предложений, в которых употребляются по нескольку слов и словосочетаний, входящих в словарь соответствующей темы. Например, если считать, что предложение будет относиться к основным смысло- несущим, если в нем содержится два и более слова (словосочетания) из словаря заданной темы, то машинный реферат нашего текста составит следующая последовательность его предложений:

 СОВРЕМЕННЫЕ ЭВМ ЯВЛЯЮТСЯ ВЫСОКО-ПРОИЗВОДИТЕЛЬНЫМИ МАШИНАМИ. ОНИ ИМЕЮТ БЫСТРОДЕЙСТВИЕ В 5 МЛН ОПЕРАЦИЙ В СЕКУНДУ И ОПЕРАТИВНУЮ ПАМЯТЬ В 2 МБАЙТ. 
МАШИНЫ ЧИТАЮТ ТЕКСТ СО СКОРОСТЬЮ ДО 1600 ЗНАКОВ В СЕКУНДУ. 
предыдущая главасодержаниеследующая глава








© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь