Квантитативные характеристики текста являются исходными для решения следующих задач: определение авторства текста; определение жанра и стиля текста, выделение языка специальности по текстам [2, 7, 9, 10].
Точность расчета квантитативных характеристик текстов влияет на погрешность при решении данных задач [3, 4, 6]. Процесс вычисления квантитативных характеристик текста необходимо автоматизировать из-за трудозатратности и времязатратности [8, 11, 12], но морфологизаторы, используемые в качестве модулей определения исходных квантитативных характеристик, обладают своим процентом ошибочности.
Проведем сравнительный анализ морфологизаторов Mystem и PHPMorphy [1].
Mystem [5] — бесплатно распространяемый морфологический анализатор русского языка для некоммерческого использования от компании Яндекс. Морфологический анализатор работает как отдельное приложение написанное на языке C. Программа работает с текстовыми файлами, откуда берется информация для морфологизации, или со стандартным вводом/выводом слов. Морфологический анализатор показывает все возможные формы изначальных слов.
PHPMorphy — бесплатно распространяемая библиотека морфологического анализа, реализованная на платформе PHP. PHPMorphy позволяет решать следующие задачи:
- Лемматизация (получение нормальной формы слова);
- Получение всех форм слова;
- Получение грамматической информации для слова (часть речи, падеж, спряжение и т.д.);
- Изменение формы слова в соответствии с заданными грамматическими характеристиками;
- Изменение формы слова по заданному образцу.
Поддерживаемые языки: Русский, Английский, Немецкий (AOT). Украинский, Эстонский (на основе ispell). Есть возможность добавить поддержку других языков при помощи myspell словаря.
Поддерживаются различные кодировки: все однобайтовые (windows-1251, iso-8859-* и т.п.); Unicode кодировки — utf-8, utf-16le/be, utf-32, ucs2, ucs4.
Для достижения поставленной цели был проведен следующий эксперимент: на вход морфологизаторов PHPmorphy и Mystem подавался один и тот же текст. Результаты эксперимента приведены в таблице 1.
Часть речи | phpMorphy | MyStem | ||
Однозначная интерпретация | Неоднозначная интерпретация | Однозначная интерпретация | Неоднозначная интерпретация | |
Глаголов | 8 | 4 | 9 | 5 |
существительных | 13 | 3 | 10 | 11 |
прилагательных | 8 | 2 | 6 | 3 |
наречий | 0 | 1 | 0 | 1 |
предлогов | 9 | 0 | 4 | 5 |
Союз | 0 | 3 | 0 | 3 |
Частиц | 0 | 1 | 0 | 5 |
местоимений | 2 | 2 | 2 | 2 |
МС-П | 1 | 2 | 1 | 2 |
междометий | 0 | 3 | 0 | 3 |
числительных | 1 | 0 | 1 | 0 |
предикативов (композит) | 0 | 0 | 0 | 0 |
Сравнительный анализ результатов эксперимента (рис. 1-2) показал, что неоднозначностей, при автоматизированном определении части речи, больше возникает при использовании морфологизатора mystem.


По результатам эксперимента, можно сделать следующий вывод: для автоматизированного определения квантитативных параметров, в качестве модуля определения частей речи, рекомендуется использование морфологизатора PHPMorphy.