Найдено научных статей и публикаций: 2, для научной тематики: Парсер
1.
Крижановский Андрей
- Artificial Intelligence , 2010
В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная ста...
В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная статья Викисловаря представляет собой обычный текст. Руководство Викисловаря описывает структуру словарной статьи и ряд правил, которых должны придерживаться редакторы словаря. Эта структура и правила позволяют взглянуть на словарную статью с точки зрения объектно-ориентированного программирования. В этом случае сама статья и её разделы и подразделы будут соответствовать классам, а наличие каких-либо подразделов в разделах указывает на наличие отношений между классами-подразделами и классами-разделами. Такое соответствие позволяет перевести "плоский" текст Викисловаря в объектно-ориентированную форму, а именно: на основе данных Викисловаря создать экземпляры классов, присвоить значения свойствам объектов. Естественным результатом будет создание программного интерфейса (API) для работы с объектами этих классов, а по сути – с данными Викисловаря. С другой стороны, для удобной компьютерной обработки данные Викисловаря должны храниться в базе данных. В данной работе представлено, как при создании машинно-читаемого Викисловаря были решена задача преобразования структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных, т.е. «плоский» текст словарных статей Викисловаря был преобразован и сохранён в специально разработанную реляционную базу данных. Созданный машинно-читаемый словарь содержит толкования слов, семантические отношения и переводы, извлечённые из Английского и Русского Викисловарей. Разработанное программное обеспечение находится в свободном доступе c открытой лицензией (http://code.google.com/p/wikokit) с тем, чтобы привлечь учёных и программистов к использованию построенного машинного словаря и развитию парсера.
2.
Крижановский Андрей
, 2010
Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реали...
Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реализации парсера. Построенный парсер извлекает значения слова, семантические отношения и переводы из Английского и Русского Викисловарей. Статья может быть интересна учёным и программистам, которые хотят использовать построенный машинный словарь для решения NLP задач либо желают построить парсер на основе данного проекта для обработки ещё одного из оставшихся неохваченными 170 Викисловарей. Выполнено сравнение словарных статей Английского и Русского Викисловарей, а именно были сравнены количество и тип семантических отношений, число значений слов, число переводов. Английский Викисловарь оказался больше по числу семантических отношений в полтора раза (157 и 100 тыс), однако в Русском Викисловаре больше слов «богатых» на отношения (например, в полтора раза больше словарных статей с числом семантических отношений больше трёх). Сравнение позволило выявить некоторые методологические недостатки викисловарей.