Программная реализация методов автоматической генерации онтологии на основе структурированного материала

NovaInfo 59, с.68-77, скачать PDF
Опубликовано
Раздел: Технические науки
Просмотров за месяц: 2
CC BY-NC

Аннотация

В данной работе описаны основные бизнес-процессы системы автоматической генерации онтологических моделей на основе структурированного текста, также приведено описание программной разработки системы в виде скриншотов и результаты оценки эффективности реализованных методов автоматического построения онтологических моделей.

Ключевые слова

ОНТОЛОГИЧЕСКИЕ МОДЕЛИ, МЕТОДЫ ПОСТРОЕНИЯ ОНТОЛОГИЙ

Текст научной работы

Введение

Как правило, построение онтологии требует использования больших ресурсов, а также экспертных знаний в предметной области, и занимает существенный объем времени. Таким образом, автоматизация процесса построения онтологии является актуальной задачей.

Представляется возможным автоматическое построение онтологии по коллекции текстовых документов преимущественно на основе статистических методов анализа текстов на естественном языке. Содержание документов в коллекции непосредственно влияет на качество получаемой онтологии. Если тематически тексты документов слабо связаны, скорее всего, построенная онтология окажется невыразительной, поскольку будет описывать отдельные аспекты различных предметных областей, не создавая при этом общей картины.

Описание системы

На рисунке 1 показана диаграмма верхнего уровня процесса «Генерация онтологии на основе структурированного материала».

Диаграмма верхнего уровня процесса «Генерация онтологии на основе структурированного материала».
Рисунок 1. Диаграмма верхнего уровня процесса «Генерация онтологии на основе структурированного материала»

Входной информацией являются файл структурированного учебного материала и словари, которые загружает пользователь ИС. Данная входная информация используется на всех этапах генерации онтологической модели.

Выходной информацией в процессе генерации онтологической модели являются: онтологическая модель материала и описание элементов, входящих в состав онтологической модели.

Исполнителями процесса являются пользователь ИС и информационная система (ИС*).

Управление процессом осуществляется на основании правил разбора текста и правил построения онтологической модели.

Генерация онтологии на основе структурированного материала осуществляется в пять этапов:

  1. Разбор структурированного текста» — на данном этапе пользователь выбирает загрузку структурированного текста в систему, после этого система выполняет заполнение внутренних структур программы элементы считанными из файла;
  2. Синтаксическая обработка текста» — на данном этапе выполняется разбор предложений элементов, выделенных из структурированного текста;
  3. Семантическая обработка текста (построение онтологии)» — на данном этапе выполняется выделение смысловых единиц текста, образующих элементы онтологической модели, т.е. и выделение вершин модели, также на данном этапе выполняется поиск и расстановка связей вершин;
  4. Сохранение онтологической модели в БД» — на данном этапе выполняется сохранение полученной модели в БД;
  5. Отображение онтологической модели» — на данном этапе выполняется вывод полученной онтологической модели в виде графа с выводом информации о каждом элементе онтологической модели.

На рисунке 2 показана детализация процесса «Поиск кратчайшего пути в графе».

Декомпозиция диаграммы А1 «Генерация онтологии на основе структурированного материала».
Рисунок 2. Декомпозиция диаграммы А1 «Генерация онтологии на основе структурированного материала»

Разработанная программно-информационная система для автоматической генерации онтологии на основе структурированного материала предназначена для разбора текстовых документов и построения по результатам разбора онтологической модели курса.

После запуска разработанного приложения открывается основное окно разработанного приложения. Экранная форма основного окна показана на рисунке 3.

Основное окно разработанной системы
Рисунок 3. Основное окно разработанной системы

Экранная форма диалогового окна "Открытый файл" представлена на рисунке 4.

Открытый файл
Рисунок 4. Открытый файл

Когда необходимо внести какие-либо изменения в открытый файл формата.RTF это можно сделать используя первое поле вывода текстового файла в основном окне приложения. После внесения изменений необходимо сохранить измененный файл, выбрав пункт "Сохранить в формате RTF" в меню "Файл" основного окна. Появиться стандартное окно операционной системы Windows для сохранения файлов — "Сохранить как". В нем необходимо ввести имя сохраняемого файла. Возможен вариант записи сохраняемого файла взамен уже существующего файла.

Результаты разбора текстового документа выводятся в экранную форму в виде таблицы. В таблице отражены все, найденные в текстовом документе, ключевые слова и связанные с ними термины. Формат связей формируется основываясь на форму построения предложений в тексте: «определение 1» — «ключевое слово» — «определение 2». Именно по этому требуется предварительная подготовка коллекции текстовых документов согласно введенным правилам.

Экранная форма окна "Результаты разбора текстового документа" показана на рисунке 5.

Результаты разбора текстового документа
Рисунок 5. Результаты разбора текстового документа

После окончания анализа и разбора текстового документа переходим к построению онтологической модели этого текстового документа. Для этого выбираем пункт "Отображение" из меню "Вариант 2" основной формы и активируем процесс построения онтологической модели (рисунок 6).

Открыть отображение результатов разбора текстового документа
Рисунок 6. Открыть отображение результатов разбора текстового документа

Онтологическая модель, построенная по результатам разбора текстового документа выводится в экранную форму в виде графа, вершинами которого являются найденные термины. Связи между вершинами — это ключевые слова. Вершины построенного графа пронумерованы. Перечень терминов с их номерами приведен в таблице, выведенной в экранную форму.

Экранная форма окна "Онтологическая модель, построенная по результатам разбора текстового документа" представлена на рисунке 7.

Онтологическая модель, построенная по результатам разбора текстового документа
Рисунок 7. Онтологическая модель, построенная по результатам разбора текстового документа

Разработанное приложение позволяет просматривать одновременно результаты разбора текстового документа и онтологическую модель, построенную по этим результатам.

Суть проводимого эксперимента в том, что выполняется сравнительный анализ онтологических моделей, которые строит система и с моделями-эталонами, предоставленными экспертом. Также выполняется расчет метрических характеристик качества как построенных так и эталонных онтологических моделей.

Для выполнения сравнительного анализа использовалась эталонная модель и модель, построенная системой.

Для пары сравниваемых онтологий получены следующие результаты расчета метрик качества онтологических моделей.

Результаты расчета метрик качества онтологических моделей
Рисунок 8. Результаты расчета метрик качества онтологических моделей

Выводы

Проанализировав построенные онтологические модели можно сделать следующие выводы:

  1. Разработанная система выделяет большее количество вершин, чем эксперт в области построения онтологических моделей;
  2. Количество всех связей в графе остается приблизительно тем же;
  3. Значение средней глубины и ширины онтологических моделей уменьшается по сравнению с построенными экспертом;
  4. Модели, построенные системой более простые по сравнению с построенными экспертом.

Читайте также

Список литературы

  1. Андрич О.Ф., Макушкина Л.А. Исследование методов оценки качества онтологических моделей // Андрич О.Ф., Макушкина Л.А. Современные наукоемкие технологии. 2014. № 5-2. С. 18-19.
  2. Макушкина Л.А., Рыбанов А.А. Оценка качества структурирования учебного материала на основе метрик онтологических моделей // Актуальные вопросы профессионального образования. 2014. Т. 11. № 14 (141). С. 86-89.
  3. Макушкина Л.А., Рыбанов А.А., Приходько Е.А. Электронный учебник как знаковое средство построения и организации обучения // Актуальные вопросы профессионального образования. 2009. Т. 6. № 10 (58). С. 98-100.
  4. Макушкина Л.А., Рыбанов А.А.Оценка качества структурирования учебного материала на основе метрик онтологических моделей//Макушкина Л.А., Рыбанов А.А. Актуальные вопросы профессионального образования. 2014. Т. 11. № 14 (141). С. 86-89.
  5. Маслова О.В., Макушкина Л.А. Анализ методов генерации онтологических моделей по коллекции текстовых документов// Маслова О.В., Макушкина Л.А. Вестник магистратуры. 2014. № 4-1 (31). С. 85-89.
  6. Паращук А.В., Рыбанов А.А. Исследование методов оценки качества онтологии предметной области // NovaInfo.Ru. 2016. Т. 1. № 43. С. 8-17.
  7. Попов Д.В., Макушкина Л.А. Исследование методов построения конвертера онтологических моделей курса // Попов Д.В., Макушкина Л.А. Современные научные исследования и инновации. 2014. № 1 (33). С. 3.
  8. Рыбанов А. Анализ качества квантования учебного текста // Педагогические измерения. 2014. № 1. С. 3-16.
  9. Рыбанов А. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.
  10. Рыбанов А. Степень соответствия между тезаурусом учащегося и тезаурусом учебного контента как метрика процесса усвоения дистанционного учебного курса // Педагогические измерения. 2013. № 3. С. 77-91.
  11. Рыбанов А.А. Автоматизированное определение квантитативных характеристик текста // Современные научные исследования и инновации. 2014. № 2 (34). С. 5.
  12. Рыбанов А.А. Квантование учебной информации как средство повышения качества учебного материала // Актуальные вопросы профессионального образования. 2014. Т. 12. № 15 (142). С. 28-30.
  13. Рыбанов А.А. Квантование учебной информации как средство повышения качества контента в системах дистанционного обучения // Дистанционное и виртуальное обучение. 2014. № 7 (85). С. 4-21.
  14. Рыбанов А.А. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6. С. 172-174.
  15. Рыбанов А.А. Повышение качества учебного материала на основе применения процедуры квантования // Школьные технологии. 2015. № 2. С. 169-171
  16. Рыбанов А.А. Подходы к анализу качества текста пояснительной записки выпускной квалификационной работы // Актуальные вопросы профессионального образования. 2011. Т. 8. № 10 (83). С. 113-116.
  17. Рыбанов А.А., Панкова Л.А. Исследование методов адаптации к обучаемому в современных компьютерных обучающих системах // Актуальные вопросы профессионального образования, Т. 5. 2008. № 5. С. 67-69.
  18. Рыбанов А.А., Самодьянова А.С. Разработка web-ориентированной экспертной системы оценки качества педагогических тестов // Молодой ученый. 2014. № 9 (68). С. 31-34.

Цитировать

Куркин, А.Н. Программная реализация методов автоматической генерации онтологии на основе структурированного материала / А.Н. Куркин, Л.А. Макушкина. — Текст : электронный // NovaInfo, 2017. — № 59. — С. 68-77. — URL: https://novainfo.ru/article/11235 (дата обращения: 22.05.2022).

Поделиться