Реализация семантического новостного агрегатора с широкими поисковыми возможностями
Опубликовано: 16.10.2017
Цель этой статьи — поделиться опытом и идеями реализации проекта, основанного на полном преобразовании текстов в семантическое представление и организации семантического (смыслового) поиска по полученной базе знаний. Речь пойдет об основных принципах функционирования этой системы, используемых технологиях, и проблемах, возникающих при ее реализации.
Зачем это нужно?
В идеале, семантическая система «понимает» содержание обрабатываемых статей в виде системы смысловых понятий и выделяет из них главные («о чем» текст). Это дает огромные возможности по более точной кластеризации, автоматическому реферированию и семантическому поиску, когда система ищет не по словам запроса, а по смыслу, который стоит за этими словами.
Семантический поиск – это не только ответ по смыслу на набранную в поисковой строке фразу, а в целом способ взаимодействия пользователя с системой. Семантическим запросом может быть не только простое понятие или фраза, но и документ — система при этом выдает семантически связанные документы. Профиль интересов пользователя – это тоже семантический запрос и может действовать в «фоновом режиме» параллельно с другими запросами.
Ответ на семантический запрос в общем случае состоит из следующих компонентов:
Прямой ответ на вопрос и другая информация, касающаяся запрошенных и связанных с ними понятий. Семантические понятия, семантически связанные с понятиями запроса, которые могут представлять собой как ответ на вопрос, так и средство для «уточнения» запроса. Текстовые документы, мультимедийные объекты, ссылки на сайты по теме, которые раскрывают и описывают запрашиваемое смысловое понятие.Новостной агрегатор – наиболее удобное информационное приложение для отработки такого семантического подхода. Можно построить работающую систему при относительно небольшом объеме обрабатываемого текста и высоком допустимом уровне ошибок обработки.