Применение нечётких множеств и мягких вычислений в медицинской статистике

№51-1,

медицинские науки

В статье рассматривается применение инструментов искусственного интеллекта для целей анализа медицинских данных.

Похожие материалы

Математическая статистика в её классической интерпретации имеет право на существование там, где исходная выборка данных подчиняется требованиям массовости и однородности. Если один из этих критериев нарушается, то о применении статистики в чистом виде говорить не приходится.

Однородность в статистике достигается там, где выполняется условие однородности и однотипности окружения, в котором формируются и собираются данные. Проще говоря, источник данных должен сохраняться неизменным во времени, не подверженным внешним влияниям. Простейший пример такого рода – статистические испытания на отказ электронной элементной базы, когда достаточно объёмная выборка из партии только что произведённых элементов ставится на испытания, в которых однотипно задано время и условия испытаний.

Разумеется, ничего похожего мы не наблюдаем в медицинской практике. Рассмотрим ситуацию сбора статистики по профессиональным заболеваниям для двух регионов, которые кардинально отличаются по экологическим условиям. Например, в регионе 1, который характеризуется неплохими экологическими условиями, частота профессиональных заболеваний будет низкой, а в регионе 2, с повышенным уровнем загрязнения окружающей среды, такая частота будет заведомо выше. Возникают две неоднородные выборки, и любая попытка объединить их в едином анализе – например, когда суммируются данные по областям в рамках единого федерального округа – обречена на провал. Смешение неоднородных данных может привести к деформации вероятностного распределения, и оно, например, перестанет быть нормальным или даже унимодальным. Если традиционное нормальное распределение данных характеризуется двумя параметрами (математическим ожиданием и дисперсией), то новое распределение, потеряв свойство нормальности, уже не сможет быть охарактеризовано двумя параметрами, да и сам факт существования устойчивого вероятностного распределения окажется под вопросом.

Если неоднородность данных теряется от региона к региону, то ещё в большей степени она теряется от года к году наблюдения. Исследуя статистику простудных и лёгочных заболеваний, можно легко убедиться, как существенно расходятся данные, в зависимости от того, насколько благоприятен был год в климатическом отношении. Что же до анализа эпидемий, то ещё более ясно, что год на год не приходится, и определённые годы характеризуются вспышками заболеваний. Смешивать статистику эпидемически активного года со статистикой спокойного года – неверно в принципе.

Таким образом, получается, что в большом числе случаев применение классических статистических методов неприменимо, и приходится иметь дело не собственно со статистикой, но с квазистатистикой [5], где хотя бы одно из условий по данным – массовости и/или однородности – оказывается не выполненным. Возникает два варианта продолжения исследований:

Вариант 1. Продолжаются применяться классические статистические методы медицинской статистики [2,3], но с применением модификаций традиционных подходов и математических соотношений.

Вариант 2. Отказ от математической статистики в принципе и переход к альтернативным методам анализа (например, лингвистическим).

Рассмотрим применение двух этих вариантов более подробно.

В первом случае, подтверждается существование распределения (например, нормального), однако традиционные скалярные параметры этого распределения являются размытыми. Например, матожидание случайной величины частоты заболевания может обладать формой интервального, треугольного нечёткого числа, или нечёткого числа произвольной формы. В этом случае, функция и плотность распределения параметра случайной величины являются нечёткими функциями параметра, когда существует взаимно однозначное соответствие между параметром и нечётким значением функции. Любая вероятность, которая достигается интегрированием нечёткой плотности распределения, также становится нечётким числом.

Чтобы верифицировать параметры вновь построенного нечёткого распределения, нужно построить функцию правдоподобия в двумерном поле «Матожидание – СКО» и найти её экстремум, а затем определить уровень достоверности, в рамках которого правдоподобие сохраняет свой приемлемый уровень. По мере удаления от полученного экстремума, идёт размытие параметров матожидания и СКО. Ниже выделенного уровня правдоподобия распределения не существует, а в пределах правдоподобных значений параметры распределения обладают своими уровнями достоверности, которые находятся в интервале от 0 до 1. Чем далее уровень правдоподобия отстоит от максимума, тем ниже уровень доверия к параметру распределения. Таким образом, в экстремуме фиксируется уровень доверия 1, а на границе правдоподобия (на предельном уровне достоверности) – ноль. Разбивая интервал достоверности на сегменты (например, величиной 0,1), мы можем восстановить параметры распределения как нечёткие числа, представленные своими сегментными интервалами принадлежности (всего таких интервалов будет 11, из которых один вырождается до размеров точки). Оперируя этими интервалами при анализе плотности или функции вероятностного распределения, мы получаем также сегментный вид значений этих функций, по правилам интервальной арифметики Дюбуа-Прада [1].

Что касается варианта 2 проведения исследований, то здесь акцент делается на лингвистической интерпретации полученных данных, с превращением выборки из генеральной совокупности в набор знаний. Это можно сделать на основании лингвистической интерпретации гистограмм медицинских данных по аналогии с [4], при этом форма гистограммы не играет роли; она может быть близка по виду к унимодальному распределению, а может и обладать двумя-тремя различными модами. Полимодальность как раз и возникает там, где возникает неоднородность по данным, в рамках территорий сбора данных или массива лет сбора (возникает своеобразный эффект оценки «средней температуры по больнице»).

Обработав гистограмму специализированными математическими методами, мы можем перейти к виду случайной величины как лингвистической переменной Заде [1], которая характеризуется своим терм-множеством значений (например, множество из пяти термов – «Очень Низкий», «Низкий», «Средний», «Высокий», «Очень Высокий»), и для каждого терма существует своя функция принадлежности, связывающая исходное значение параметра из выборки с качественным значением терм-множества. Заявленный здесь подход впервые нашёл своё практическое применение в лингвистических контроллерах типа Мамдани [7], встроенных в кондиционеры воздуха, стиральные машины и д.р. Эти контроллеры позволили выставлять оптимальные режимы работы многих электроприборов.

Тем самым, собранная статистика приобретает качественную шкалу изменения, по результатам выполнения процедуры data mining – извлечения знаний из данных. Далее эти качественные уровни данных могут участвовать в процедурах нечётко-логического вывода, в нейронных сетях или в специализированных гибридных интеллектуальных медицинских системах. Первой такой системой следует считать MYCIN [8].

Также лингвистический подход к данным весьма успешно применяется в алгоритмах кластеризации, когда исходный набор значений, определённый на многомерном поле факторов, следует разбить на конечное число классов, в рамках которых анализируемые данные выборки, можно, с известной натяжкой, признать однородными, унифицированными, когда в их отношении можно делать однотипные суждения и обрабатывать эти данные по одним и тем же правилам.

В последующих статьях этого цикла будут приводиться примеры того, как нечёткие множества и мягкие вычисления могут интерпретировать неоднородные статистические данные.

Список литературы

  1. Заде Л.А. Понятие лингвистической переменной и его применение к понятию приближенных решений / Л.А. Заде.- М.: Изд-во «Мир». - 1976. - 169 с.
  2. Зайцев В.М. Медицинская статистика в амбулаторно-поликлинических учреждениях промышленных предприятий: Учебное пособие / В.М. Зайцев, Л.А. Аликбаева, А.А. Сидоров, А.Л. Двояковский, Д.И. Гладков. – СПб., Новый журнал, 2009. – 416 с.
  3. Зайцев В.М., Савельев С.И. Практическая медицинская статистика: Учебное пособие / под. Редакцией академика РАМН, профессора, д.м.н., заслуженного деятеля науки России А.И. Потапова и профессора, д.м.н. О.Г. Хурцилава. – Тамбов: Цифра, 2013. – 580 с.
  4. Недосекин А.О. Лингвистический анализ гистограмм экономических факторов / Фролов С.Н. // Вестник Воронежского государственного университета. Серия: Проблемы высшего образования. 2008. № 2. С. 48-55.
  5. Недосекин А.О. Методологические основы моделирования финансовой деятельности с использованием нечетко-множественных описаний. – Диссертация доктора экономических наук / Недосекин А.О. – СПб., СПбГУЭФ, 2004. – 280 с. – Также в режиме доступа: http://www.mirkin.ru/_docs/doctor005.pdf. Дата обращения: 18.09.2016.
  6. Dubois D., Prade H. Fuzzy Sets and Systems / D. Dubois, H. Prade. - N.Y., Academic Press, 1980.
  7. Mamdani E.H. Applications of fuzzy algorithms for simple dynamic plant / E.H. Mamdani // Porc. IEE. - 1974. - vol. 121, n. 12. - pp. 1585-1588.
  8. McCarthy J. Some expert system need common sense // Stanford University, Computer Science Department - http://www-formal.stanford.edu/jmc/