Кластерный анализ

NovaInfo 47, с.129-133
Опубликовано
Раздел: Экономические науки
Просмотров за месяц: 0
CC BY-NC

Аннотация

Что такое кластерный анализ и важен ли он в современной жизни. В статье рассмотрены основные задачи и этапы кластерного анализа.

Ключевые слова

КЛАСТЕР, ПЕРЕМЕННАЯ, СТРУКТУРА

Текст научной работы

Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.

Кластерный анализ выполняет следующие основные задачи:

  • Разработка типологии или классификации;
  • Исследование полезных концептуальных схем группирования объектов;
  • Порождение гипотез на основе исследования данных;
  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные;
  • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства;
  • Вычисление значений той или иной меры сходства (или различия) между объектами;
  • Применение метода кластерного анализа для создания групп сходных объектов;
  • Проверка достоверности результатов кластерного решения.

Можно встретить описание двух фундаментальных требований предъявляемых к данным — однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описывались сходным набором характеристик. Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Существует около 100 разных алгоритмов кластеризации, однако, наиболее часто используемые — иерархический кластерный анализ и кластеризация методом k-средних

Поясним суть кластерного анализа, не прибегая к строгой терминологии: допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом. То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать иерархический кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания.

Рисунок 1.

Поясним, как сформирована приведенная выше таблица.

В первом столбце расположен номер кластера — группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера.

Первая группа — в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.

Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей "в возрасте", занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.

Третья группа наиболее "молодая". В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

Таким образом, спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Читайте также

Список литературы

  1. Лубова, Т. Н. Многомерные статистические методы [Электронный ресурс] : учебное пособие / Т. Н. Лубова ; М-во сел. хоз-ва РФ, Башкирский ГАУ. - Уфа : Изд-во БГАУ, 2015. - 64 с.
  2. Лубова, Т. Н. Теория вероятностей и математическая статистика [Электронный ресурс] : учебное пособие / Т. Н. Лубова ; М-во сел. хоз-ва РФ, Башкирский ГАУ. - Уфа : Изд-во БашГАУ, 2015. - 163 с.
  3. Исламгулов, Д.Р. Применение корреляционного анализа в агрономии [Текст] / Д.Р. Исламгулов, Т.Н. Лубова // Уральский научный вестник. – 2016. – Т. 4. - № 3. – С. 142-147.
  4. Лубова, Т.Н. Принципы статистического прогнозирования при разработке инновационной стратегии региона [Текст] / Т.Н. Лубова // Экономика, экология и общество России в 21-м столетии: Сборник научных трудов: 11-й Международной научно-практической конференции, 19-21 мая 2009 г. / Санкт-Петербургский государственный политехнический университет. – С.-Петербург, 2009. – С. 155-156.
  5. Лубова, Т. Н. Многомерная классификация регионов Приволжского федерального округа по уровню финансовой безопасности [Текст] / Т. Н. Лубова // Конкурентоспособность региона в условиях экологических и демографических ограничений: Материалы межрегиональной научно-практической конференции. – Улан-Уде: Изд-во БНЦ СО РАН, 2009. – с. 149-159.
  6. Лубова, Т. Н. Классификация регионов Российской Федерации методом кластерного анализа [Текст] / Т. Н. Лубова // Образование, наука, практика: инновационный аспект: Сб. материалов международной научно-практической конференции, посвященной памяти профессора А.Ф. Блинохватова. – Пенза: РИО ПГСХА, 2008. – С.379-381.
  7. Лубова, Т.Н. Межрегиональный рейтинговый анализ инновационной активности регионов Приволжского федерального округа [Текст] / Т.Н. Лубова // Актуальные проблемы гуманитарных и естественных наук. – 2009. – № 7-1. - С. 107-111.
  8. Лубова, Т.Н. Межрегиональный сравнительный анализ показателей финансовой безопасности Приволжского федерального округа [Текст] / Т.Н. Лубова // Молодой ученый. – 2009. – № 5. - С. 53-60.
  9. Лубова, Т.Н. Проблемы реализации инновационной политики [Текст] / Т.Н. Лубова // Проблемы и перспективы социально-экономической политики и рынка труда России II Всероссийская научно-практическая конференция, декабрь 2007 г.: сборник статей под. ред. А.Н. Ананьева. Пенза, 2007, с. 52-54.
  10. Лубова, Т. Н. Межрегиональный рейтинговый анализ инновационной активности регионов Приволжского федерального округа [Текст] / Т. Н. Лубова // Новые направления в решении проблем АПК на основе современных ресурсосберегающих, инновационных технологий. Материалы Международной научно-практической конференции, посвященной 65-летию Победы в Великой Отечественной войне, Волгоград 26-28 января 2010г. Том 2. – Волгоград: ИПК «Нива», 2010. – с. 213-216.
  11. Лубова, Т. Н. Особенности анализа инновационной активности вузов региона [Электронный ресурс] / Т. Н. Лубова // Наука и образование в развитии промышленной, социальной и экономической сфер регионов России: II Всероссийские научные Зворыкинские чтения. Сб. тез. докладов II Всероссийской межвузовской научной конференции (Муром, 5.02.2010г.). – Муром: изд. Полиграфический центр МИ ВлГУ, 2010. – c. 61-63.
  12. Исламгулов, Д. Р. Особенности новых образовательных стандартов [Текст] / Д. Р. Исламгулов, Т. Н. Лубова // Современное вузовское образование : теория, методология, практика : материалы Междунар. учеб.-метод. конф., 21-22 марта 2013 г. / Башкирский ГАУ. - Уфа, 2013. - С. 14-15.
  13. Лубова, Т. Н. Особенности, задачи и проблемы внедрения модульно-рейтинговой системы [Текст] / Т. Н. Лубова, Д. Р. Исламгулов // Современное вузовское образование: теория, методология, практика: материалы Междунар. учеб.-метод. конф., 21-22 марта 2013 г. / Башкирский ГАУ. - Уфа, 2013. - С. 10-13.

Цитировать

Муллакаева, Л.Р. Кластерный анализ / Л.Р. Муллакаева. — Текст : электронный // NovaInfo, 2016. — № 47. — С. 129-133. — URL: https://novainfo.ru/article/6444 (дата обращения: 24.01.2022).

Поделиться