Новый тип документов в вики-разметке всё более завоёвывает просторы Интернет. Это выражается не только в количестве таких интернет-страниц, но также и в популярности вики-проектов (в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован с...
Новый тип документов в вики-разметке всё более завоёвывает просторы Интернет. Это выражается не только в количестве таких интернет-страниц, но также и в популярности вики-проектов (в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован способ индексации текстов Википедии на трёх языках: русский, английский, немецкий. Рассмотрена архитектура системы индексирования, включающая программные модули GATE и Lemmatizer. Описаны правила преобразования вики-текстов в тексты на ЕЯ. Построены индексные базы Русской Википедии и Википедии на английском упрощённом языке, выполнено сравнение основных показателей баз данных (число слов, лексем), подтверждающих, что размер Русской Википедии на порядок больше. При этом обнаружен более быстрый рост английской, а именно: за пять месяцев (сент. 2007 — февр. 2008) скорость роста числа статей была больше на 12% и на 6% быстрее чем в русской пополнялся лексикон Википедии на английском упрощённом языке. Выполнена проверка выполнения закона Ципфа для текстов Русской Википедии и Википедии на английском упрощённом языке. В качестве возможных приложений индексной БД рассмотрены методология фильтрации текстовой информации и метод визуализации результатов поиска. Весь исходный код системы индексирования и построенные индексные БД доступны по открытой лицензии GNU GPL.
FLINS-08, Корпусная лингвистика-08, AIS/CAD-08, 2008