|
|
Проект Гитика
Структура, компоненты, приложения |
|
Инструменты сбора и первичной обработки исходных данных, включают:
-
Краулер — анализирует страницы сайтов, формирует служебную
информацию о позиции и типе страниц и передает их содержимое
вместе с результатами анализа для последующей обработки
-
Нормализатор — приводит разнородные данные (разные
кодировки,
форматы doc, docx, pdf, pptx, xml и т.п., к единому формату (текст - xml)
Компоненты поисковой системы Гитика включают:
-
Индексатор/категоризатор — определяет ведущие контексты,
полученного материала, индексирует и сохраняет результаты работы в базе данных
поисковой системы
-
База данных — содержит индексы, тематические позиции,
ссылки на источники (например, url), служебную информацию, полученную от
краулера, и нормализованное содержимое страницы
-
Поисковая система — предоставляет пользователю интерфейс,
позволяющий получать документы, содержащие заданные
ключевые слова и/или документы
советующие заданной тематике
-
Тематические ленты новостей (rss) — ленты по тематикам с
рубрикацией по подтемам, для использования в других подсистемах заказчика (в частности,
на сайтах корпоративных новостей)
|
Предыдущая страница |
Следующая страница |
экспертная система гитика,
база знаний,
поисковая система гитика,
концептульный поиск,
системы концептуального поиска,
тематический категоризатор,
тематическая категоризация,
автоматическая категоризация,
автоматическая обработка текста,
автоматическое определение тематики документа,
автоматическое определение тематики текста,
действующая система обработки текстов на естественных языках,
определение тематики текста,
определение тематики документа,
анализ текстов на естественном языке,
идентификация людей,
идентификация организаций,
идентификация географических объектов,
элементы искусственного интеллекта,
текстовая категоризация,
текстовый категоризатор,
категоризация текстов,
категоризатор текстов,
категоризация текстовой информации,
категоризация текстовых данных,
категоризатор,
категоризация,
рейтинг упоминаний,
лидеры упоминаний,
монторинг упоминаний,
gitika.ru,
gitika,
relteam.ru,
relteam,
гитика,
релтим
|
|