Глоссарий

Термины, используемые в отчетах.

  • Что такое тезаурус?

    Тезаурус представляет собой упорядоченное распределение частот несовпадающих слов текста. При этом, различные словоформы одного и того же слова считаются несовпадающими словами. Источником данных могут быть как выборки, так и результаты основных и уточняющих запросов по шаблонам как полные, так и аннотированные по словам запроса или другим словам, заданным оператором. Тезаурус, рассчитываемый комплексом, представляет собой списки-таблицы по трем категориям: «слов-прототипов» - всех слов текста, несущих смысл, «имен собственных» - всех имен существительных, в тексте начинающихся с заглавной буквы, «аббревиатур» - всех слов в тексте, которые состоят из заглавных букв. Слова в списках рассортированы в порядке убывания частоты употребления в тексте.
  • Что такое мера схожести?

    Числовое значение «близости по содержанию» текстового описания объекта и эталона.
  • Что такое оценка?

    Оценкой называется процедура сравнения текущего образа ситуации, складывающейся вокруг объекта, и отраженного в информационном потоке за определенный интервал времени, с эталонным аналогом ситуации, описываемым историческим или теоретическим фильтром.
  • Что такое фильтр?

    Фильтром называется тезаурус текста выборки, включающей в себя одну или несколько публикаций или аннотаций, описаний исторической или теоретической модели состояния объекта или события, схожесть которой с текущим состоянием исследуемого объекта или события требуется оценить.
  • Что такое образ текстового сообщения ?

    Образ текстового сообщения будем понимать как список слов текста с присвоенным каждому слову некоторым числовым значением, обозначающим вес слова в образе. Образ строится по текстовым описаниям ситуаций или процессов, поэтому выражения «образ текста», «образ набора текстов», «образ ситуации», «образ процесса» или «образ объекта» понимаются как идентичные.
  • Какими свойствами обладает образ объекта?

    Образ изучаемого объекта обладает двумя свойствами. Во-первых, свойством взаимной неоднозначности, когда одному тексту соответствует один образ, но одному образу может соответствовать несколько текстов. Во-вторых, свойством квазинепрерывности. Оно означает, что образы для близких по смыслу текстов-описаний объекта должны быть близки, т. е. похожи.