Машинно-читаемый словарь: научные публикации и статьи по тематике. Поиск научных статей Scholar.ru

1.

Оценка использования корпусов и электронных библиотек в русском викисловаре (публикация автора на scipeople)

Крижановский А.А. , 2011

Корпус является важным инструментом лексикографов при создании словарей. В этой работе оценивается – в каком объёме используются различные корпуса и электронные библиотеки в Русском Викисловаре для иллюстрации значений слов и словосочетаний. Викисловарь – это многофункциональный многоязычный словарь...

Корпус является важным инструментом лексикографов при создании словарей. В этой работе оценивается – в каком объёме используются различные корпуса и электронные библиотеки в Русском Викисловаре для иллюстрации значений слов и словосочетаний. Викисловарь – это многофункциональный многоязычный словарь и тезаурус. Численная оценка цитат Русского Викисловаря получена с помощью разработанной компьютерной системы автоматического извлечения данных из Викисловаря. На начало 2011 г. Русский Викисловарь содержал больше 280 тысяч словарных статей, из которых было извлечено и сохранено в базу данных машинно-читаемого словаря 51.5 тысяч цитат, из них 82 % иллюстрируют русские слова. На немецком языке (втором по числу цитат) представлено только 3 % от всех цитат. Анализ данных Викисловаря показал, что для каждой третьей цитаты указан корпус текстов или электронная библиотека, из которого получена цитата. Главным источником оказался Национальный корпус русского языка, на который ссылается 95 % цитат с источниками. На втором месте – электронная Библиотека Максима Мошкова, на которую ссылается 1.3 % цитат с источниками (215 цитат).
Труды международной конференции «Корпусная лингвистика–2011». – СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011, 348 с. – C. 217—222. ISBN 978-5-8465-0005-5.

2.

Преобразование структуры словарной статьи викисловаря в таблицы и отношения реляционной базы данных (публикация автора на scipeople)

Крижановский Андрей - Artificial Intelligence , 2010

В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная ста...

В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная статья Викисловаря представляет собой обычный текст. Руководство Викисловаря описывает структуру словарной статьи и ряд правил, которых должны придерживаться редакторы словаря. Эта структура и правила позволяют взглянуть на словарную статью с точки зрения объектно-ориентированного программирования. В этом случае сама статья и её разделы и подразделы будут соответствовать классам, а наличие каких-либо подразделов в разделах указывает на наличие отношений между классами-подразделами и классами-разделами. Такое соответствие позволяет перевести "плоский" текст Викисловаря в объектно-ориентированную форму, а именно: на основе данных Викисловаря создать экземпляры классов, присвоить значения свойствам объектов. Естественным результатом будет создание программного интерфейса (API) для работы с объектами этих классов, а по сути – с данными Викисловаря. С другой стороны, для удобной компьютерной обработки данные Викисловаря должны храниться в базе данных. В данной работе представлено, как при создании машинно-читаемого Викисловаря были решена задача преобразования структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных, т.е. «плоский» текст словарных статей Викисловаря был преобразован и сохранён в специально разработанную реляционную базу данных. Созданный машинно-читаемый словарь содержит толкования слов, семантические отношения и переводы, извлечённые из Английского и Русского Викисловарей. Разработанное программное обеспечение находится в свободном доступе c открытой лицензией (http://code.google.com/p/wikokit) с тем, чтобы привлечь учёных и программистов к использованию построенного машинного словаря и развитию парсера.

3.

Сравнение тезаурусов русского и английского викисловарей, преобразованных в машинно-читаемый формат (публикация автора на scipeople)

Крижановский Андрей , 2010

Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реали...

Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реализации парсера. Построенный парсер извлекает значения слова, семантические отношения и переводы из Английского и Русского Викисловарей. Статья может быть интересна учёным и программистам, которые хотят использовать построенный машинный словарь для решения NLP задач либо желают построить парсер на основе данного проекта для обработки ещё одного из оставшихся неохваченными 170 Викисловарей. Выполнено сравнение словарных статей Английского и Русского Викисловарей, а именно были сравнены количество и тип семантических отношений, число значений слов, число переводов. Английский Викисловарь оказался больше по числу семантических отношений в полтора раза (157 и 100 тыс), однако в Русском Викисловаре больше слов «богатых» на отношения (например, в полтора раза больше словарных статей с числом семантических отношений больше трёх). Сравнение позволило выявить некоторые методологические недостатки викисловарей.