Исследование и анализ трудоемкости алгоритмов концептуальной классификации

Стельмах, Игорь Игоревич; Фадеева, Марина Викторовна

Введение

Огромный объем данных, который постоянно используется в современном мире требует специальных методов обработки [5, 6]. Цель каждой обработки – это анализ и получение каких - либо выводов. Удобным методом для работы с огромными объемами является классификация. Ее задача из множества единичных объектов получить конечные множества, которые объединяют эти единичные объекты по определенным признакам. Так как в большинстве случаев в процессе классификации объектов исследователь как правило не обладает полным знанием и объем выборки ограничен, то следует обратить внимание на те алгоритмы, которые способны решить данную проблему. С этой задачей хорошо справляются концептуальные алгоритмы, то есть алгоритмы, использующие в своей основе априорные вероятности [2]. Это дает им неоспоримые преимущества перед классическими алгоритмами.

Целью данной работы является: снижение трудоемкости алгоритмов концептуальной классификации. Для достижения поставленной цели был очерчен круг исследовательских задач:

Провести анализ концептуальной классификации, алгоритмов концептуальной классификации, методов оценки трудоемкости алгоритмов.
Составить математическое описание информационной системы оценки трудоемкости алгоритмов концептуальной классификации.
Выполнить программную реализацию информационной системы оценки трудоемкости алгоритмов концептуальной классификации.
Определить параметры, влияющие на эффективность реализованных алгоритмов информационной системы оценки трудоемкости алгоритмов концептуальной классификации.

Постановка задачи

Классификация является задачей разбиения множества объектов на некоторые группы, которые называются классами. Внутри каждой группы должны находиться «схожие» объекты, тогда как объекты разных группы должны быть максимально отличны.

Большим достоинством классификации является то, что она позволяет выполнить разбиение объектов не по одному заданному параметру, а по заданному набору признаков. Недостатком данного подхода является четкое задание классов, на которые необходимо разбить данные. Но концептуальные алгоритмы позволяют производить классификацию не на основе четких данных, а на основе вероятности принадлежности к тому или иному классу. Это делает их более гибкими и удобными для решения многих задач. Но встает вопрос о целесообразности использования данных алгоритмов. И самым первым вопросом, на который следует ответить, это является ли вероятностная классификация достаточно качественной для ее использования [2].

Оценка качества классификации может быть выполнена двумя способами [1]:

Формальный способ. Формальный способ основывается на определении некоторых формальных критериев. Лучшим считается то решение, для которого значение формального критерия максимально.
Экспертный способ. Решение оценивается специалистами заданной предметной области.

В программной реализации планируется реализовать рассмотренные методы концептуальной классификации и определить параметры, влияющие на их трудоемкость.

В качестве систем аналогов были рассмотрены следующие:

Экспертная система нечеткой кластеризации нейропроцессорных систем (Система 1);
Система Эйдос;
Интеллектуальная система для комплексной диагностики промышленного оборудования (Система 2);
Система «Довольный Гражданин»;

В качестве критериев для сравнительного анализа программных продуктов, выберем следующие:

A₁ – загрузка данных из файла;

A₂ – выбор метода классификации;

A₃– визуализация результатов классификации в виде текста;

A₄ – визуализация результатов классификации графически;

A₅ – оценка трудоемкости алгоритмов классификации.

Для определения весов критериев воспользуемся аналитической иерархической процедурой Саати [3-4].

Матрица парных сравнений, средние геометрические и веса критериев представлены в таблице 1.

Таблица 1. Матрица парных сравнений, средние геометрические и веса критериев

	A₁	A₂	A₃	A₄	A₅	Среднее геометрическое	Веса критериев
A₁	1	1/3	1/5	1/5	1/7	0,29	0,04
A₂	3	1	1/3	1/3	1/5	0,58	0,08
A₃	5	3	1	1/3	1/5	1,00	0,14
A₄	5	3	3	1	1/3	1,72	0,24
A₅	7	5	5	3	1	3,50	0,49
Сумма						7,09	1

Диаграмма весовых коэффициентов для критериев A1, A2, A3, A4, A5 представлена на рис. 1.

Рисунок 1. Весовые коэффициенты критериев качества

Выполним проверку матрицы попарных сравнений на непротиворечивость [4].

Суммы столбцов матрицы парных сравнений:

R₁=21; R₂=12,33; R₃=9.53; R₄=4.87; R₅=1.88.

Путем суммирования произведений сумм столбцов матрицы на весовые коэффициенты альтернатив рассчитывается вспомогательная величина L = 5.38. Индексом согласованности ИС = (L-N)/(N-1) = 0.078.

Величина случайной согласованности для размерности матрицы парных сравнений: СлС = 1.12.

Отношение согласованности ОС=ИС/СлС = 0.07. не превышает 0.2, поэтому уточнение матрицы парных сравнений не требуется.

Выберем категориальную шкалу от 0 до 7 (где 0 – качество не удовлетворительно, 7 – предельно достижимый уровень качества на современном этапе) для функциональных возможностей программных продуктов.

Определим (по введенной шкале) количественные значения функциональных возможностей X_ij(таблица 1.2). Вычислим интегральный показатель качества для каждого программного продукта [4].

Таблица 2. Интегральные показатели качества

Критерии	Весовые коэф-ты	Программные продукты				Базовые значения	Разрабатываемая система
Критерии	Весовые коэф-ты	Система 1	Система Эйдос	Система 2	Система «Довольный Гражданин»	Базовые значения	Разрабатываемая система
a₁	0,04	5	4	4	5	5	6
a₂	0,08	3	5	4	4	4,2	5
a₃	0,14	5	6	5	5	4,6	6
a₄	0,24	5	6	4	2	4,6	6
a₅	0,49	1	4	2	0	2,4	5
Интегр. показ-ль качества Q		2,94	4,85	3,15	1,69	3,512	5,47

где Q_j=∑a_i*X_ij интегральный показатель качества для j-го программного средства.

Построим лепестковую диаграмму интегрального показателя качества каждого программного продукта (рис. 2).

Рисунок 2. Лепестковая диаграмма интегральных показателей качества программных продуктов

Лепестковая диаграмма значений характеристик качества функциональных возможностей (критериев) представлена на рисунке 3.

Рисунок 3. Лепестковая диаграмма значений функциональных характеристик

На рисунке 4 показана диаграмма верхнего уровня процесса «Анализ трудоемкости алгоритмов классификации».

Входной информацией являются набор входных данных (массив данных, которые необходимо классифицировать, т.е. разбить на группы) и тип алгоритма (программное средство позволяет выбрать один из трех алгоритмов для выполнения классификации и соответственно оценивается его трудоемкость). Данная входная информация используется на всех этапах анализа трудоемкости алгоритмов классификации.

Выходной информацией в процессе анализа трудоемкости алгоритмов классификации являются: результаты оценки трудоемкости алгоритмов и результат оценки качества классификации.

Исполнителями процесса являются пользователь системы и информационная система (ИС).

Управление процессом осуществляется на основании математической модели алгоритмов оценки точности регрессионных моделей.

На рисунке 5 показана детализация процесса «Анализ трудоемкости алгоритмов классификации».

Рисунок 5. Детализация диаграммы А1 «Анализ трудоемкости алгоритмов классификации».

Анализ трудоемкости алгоритмов классификации осуществляется в пять этапов:

задание необходимых исходных данных для выполнения анализа» - на данном этапе пользователь загружает в систему файл, содержащий данные, которые необходимо классифицировать (т.е. разбить на группы);
реализация выбранного алгоритма классификации» – на данном этапе выполняется классификация загруженных пользователем данных на основании выбранного им алгоритма, результаты классификации отображаются пользователю;
расчет коэффициентов качества классификации» – выполняется расчет коэффициентов качества классификации в соответствии с описанной математической моделью;
оценка трудоемкости алгоритмов классификации» – на данном этапе выполняется оценка трудоемкости выбранного алгоритма классификации на заданном наборе данных;
сохранение результатов анализа в БД» – на данном этапе выполняется сохранение в БД информации об исходных данных, выбранном алгоритме классификации и результатах оценки качества классификации и трудоемкости алгоритма.

Исследование и анализ трудоемкости алгоритмов концептуальной классификации

физико-математические науки

Похожие материалы

Введение

Постановка задачи

Список литературы