Исследование морфологических анализаторов информационно-поисковых систем

NovaInfo 32, скачать PDF
Опубликовано
Раздел: Технические науки
Язык: Русский
Просмотров за месяц: 12
CC BY-NC

Аннотация

Статья содержит обзор морфологических анализаторов текста, с помощью которых можно определить квантитативные характеристики текста. Описаны особенности применения морфологических анализаторов, отмечены преимущества и недостатки.

Ключевые слова

МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР, ТОЧНОСТЬ, КВАНТИТАТИВНЫЕ ХАРАКТЕРИСТИКИ, MYSTEM, PHPMORPHY

Текст научной работы

Квантитативные характеристики текста являются исходными для решения следующих задач: определение авторства текста; определение жанра и стиля текста, выделение языка специальности по текстам [2, 7, 9, 10].

Точность расчета квантитативных характеристик текстов влияет на погрешность при решении данных задач [3, 4, 6]. Процесс вычисления квантитативных характеристик текста необходимо автоматизировать из-за трудозатратности и времязатратности [8, 11, 12], но морфологизаторы, используемые в качестве модулей определения исходных квантитативных характеристик, обладают своим процентом ошибочности.

Проведем сравнительный анализ морфологизаторов Mystem и PHPMorphy [1].

Mystem [5] — бесплатно распространяемый морфологический анализатор русского языка для некоммерческого использования от компании Яндекс. Морфологический анализатор работает как отдельное приложение написанное на языке C. Программа работает с текстовыми файлами, откуда берется информация для морфологизации, или со стандартным вводом/выводом слов. Морфологический анализатор показывает все возможные формы изначальных слов.

PHPMorphy — бесплатно распространяемая библиотека морфологического анализа, реализованная на платформе PHP. PHPMorphy позволяет решать следующие задачи:

  • Лемматизация (получение нормальной формы слова);
  • Получение всех форм слова;
  • Получение грамматической информации для слова (часть речи, падеж, спряжение и т.д.);
  • Изменение формы слова в соответствии с заданными грамматическими характеристиками;
  • Изменение формы слова по заданному образцу.

Поддерживаемые языки: Русский, Английский, Немецкий (AOT). Украинский, Эстонский (на основе ispell). Есть возможность добавить поддержку других языков при помощи myspell словаря.

Поддерживаются различные кодировки: все однобайтовые (windows-1251, iso-8859-* и т.п.); Unicode кодировки — utf-8, utf-16le/be, utf-32, ucs2, ucs4.

Для достижения поставленной цели был проведен следующий эксперимент: на вход морфологизаторов PHPmorphy и Mystem подавался один и тот же текст. Результаты эксперимента приведены в таблице 1.

Таблица 1. Квантитативные характеристики текста

Часть речи

phpMorphy

MyStem

Однозначная

интерпретация

Неоднозначная

интерпретация

Однозначная

интерпретация

Неоднозначная

интерпретация

Глаголов

8

4

9

5

существительных

13

3

10

11

прилагательных

8

2

6

3

наречий

0

1

0

1

предлогов

9

0

4

5

Союз

0

3

0

3

Частиц

0

1

0

5

местоимений

2

2

2

2

МС-П

1

2

1

2

междометий

0

3

0

3

числительных

1

0

1

0

предикативов (композит)

0

0

0

0

Сравнительный анализ результатов эксперимента (рис. 1-2) показал, что неоднозначностей, при автоматизированном определении части речи, больше возникает при использовании морфологизатора mystem.

Однозначная интерпретация части речи.
Рисунок 1. Однозначная интерпретация части речи.
Неоднозначная интерпретация части речи
Рисунок 2. Неоднозначная интерпретация части речи

По результатам эксперимента, можно сделать следующий вывод: для автоматизированного определения квантитативных параметров, в качестве модуля определения частей речи, рекомендуется использование морфологизатора PHPMorphy.

Читайте также

Список литературы

  1. Mehler A., M. Santini, and S. Sharoff. Riding the Rough Waves of Genre on the Web. Concepts and Research Questions // Genres on the web: Computational models and empirical studies / A. Mehler, S. Sharoff, and M. Santini, Text, Speech and Language Technology. Dordrecht: Springer. 2010
  2. Кожина, М. Н. Речеведение и функциональная стилистика: вопросы теории / М. Н. Кожина. — Пермь, 2002. — 475 с.
  3. Макушкина Л.А., Рыбанов А.А. Оценка качества структурирования учебного материала на основе метрик онтологических моделей // Известия Волгоградского государственного технического университета. 2014. Т. 11. № 14 (141). С. 86-89.
  4. Макушкина Л.А., Рыбанов А.А., Приходько Е.А. Электронный учебник как знаковое средство построения и организации обучения // Известия Волгоградского государственного технического университета. 2009. Т. 6. № 10 (58). С. 98-100.
  5. Морфологический анализатор текста на русском языке mystem [Электронный ресурс]; // Компания Яндекс [сайт] — 2003–2013. — URL: http://company.yandex.ru/technologies/mystem/
  6. Рыбанов А.A. Анализ качества квантования учебного текста // Педагогические измерения. 2014. №1. С. 3-16.
  7. Рыбанов А.A. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.
  8. Рыбанов А.А. Автоматизированное определение квантитативных характеристик текста // Современные научные исследования и инновации. 2014. № 2 (34). С. 5.
  9. Рыбанов А.А. Квантование учебной информации как средство повышения качества контента в системах дистанционного обучения // Дистанционное и виртуальное обучение. 2014. № 7 (85). С. 4-21.
  10. Рыбанов А.А. Квантование учебной информации как средство повышения качества учебного материала // Известия Волгоградского государственного технического университета. 2014. Т. 12. № 15 (142). С. 28-30.
  11. Рыбанов А.А. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6. С. 172-174.
  12. Рыбанов А.А. Подходы к анализу качества текста пояснительной записки выпускной квалификационной работы // Известия Волгоградского государственного технического университета. 2011. Т. 8. № 10 (83). С. 113-116.

Цитировать

Логинов, Э.В. Исследование морфологических анализаторов информационно-поисковых систем / Э.В. Логинов, А.А. Рыбанов. — Текст : электронный // NovaInfo, 2015. — № 32. — URL: https://novainfo.ru/article/3394 (дата обращения: 23.03.2023).

Поделиться