Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации (The Method of Detecting Structure Changes of News Websites)

Сбор текстовой информации из открытых Интернет-источников, ее унификация и накопление, являются задачами, с которыми приходится сталкиваться при разработке промышленных систем интеллектуальной обработки текстов, например, класса Text Mining. Без наличия актуальной базы, постоянно пополняющейся текстами целевой предметной области, невозможно эффективно использовать методы автоматической обработки (такие как кластеризация, полнотекстовый поиск, выявление скрытых зависимостей).