Обработка и анализ данных социологических исследований: обзор основных пакетов

№39-2,

социологические науки

Данная статья посвящена обработке и анализу данных в социологических исследованиях. В статье рассмотрены методы анализа социологических данных и проведен сравнительный анализ статистических пакетов для обработки данных.

Похожие материалы

Развитие социологии означает и развитие социологических исследований, которые обогащают теорию и позволяют разрабатывать механизмы регулирования социальных процессов. Социологические исследования дополняют статистическую информацию определенными данными, в которых собрана информация об интересах и особенностях населения, личных мнениях и настроениях людей, о жизненных планах на будущее, уровне и качестве жизни. Социологические исследования ориентированы на расширение социологических знаний, характеристику исходной познавательной ситуации, разработку гипотез, контролируемое применение методик, полноту отчетов об исследовании и проч.

Проанализировав и обобщив результаты социологических исследований можно дать прогноз развития социальных процессов и явлений. Работа современного социолога и других специалистов невозможна без применения приемов и методов статистики.

Многомерный анализ социологических данных актуален в наше время, потому что социологические данные можно обработать не одним, а несколькими методами, рассмотреть их с нескольких сторон.

В отличие от простых одномерных методов, многомерные методы имеют дело с безграниченными и разрозненными наборами исследуемых объектов, а так же неоднозначными и, как правило, всевозможными и по преимуществу разнонаправленными взаимосвязями между их признаками.

Характер социологических данных

Анализ социологической информации, собранной в ходе эмпирических социологических исследований, является не просто совокупностью технических приемов и методов. Это ключевой этап всего исследования, в котором происходит конкретная проверка соответствия собранной информации тем моделям социальных явлений, которые, явно или скрыто, имеются у социолога. И более того, в процессе анализа определяют и проверяются новые модели, которые в соответствии отображают те закономерности, которые есть в собранных данных.

На первом этапе обработки социолог применяет стандартный набор средств (как правило — это одномерные распределения, таблицы, гистограммы и графики) для наиболее наглядного представления полученных данных. На втором показывается соответствие (или противоречие) данных исследовательской модели, а так же ведется дальнейшая разработка именно самой модели, отходя от самих данных.

При работе с эмпирическими социологическими данными социолог использует основные понятия:

  • единица анализа (анкета, случай);
  • переменная, признак;
  • шкала измерения.

Единица анализа — это элементарная, единичная часть объекта исследования.

Переменная и признак — это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности и множество других переменных.

Шкала измерения – упорядоченная последовательность значений. [1].

Методы сбора данных

Для сбора первичных эмпирических данных используют три класса методов: прямое наблюдение, анализ документов и опросы. Методика их применения очень многообразна, поэтому некоторые модификации приняли статус самостоятельных методов, например, такие как интервью или анкетный опрос.

Особенное положение в системе приемов сбора первичных данных занимают экспериментальные методики и психологические тесты. Те и другие предполагают одновременную регистрацию фактов и жестко фиксированные приемы их обработки. Психологические и социально–психологические тесты берутся социологом из соседней области знания. Экспериментальные процедуры следует отнести к приемам анализа, потому что здесь социолог является автором построения логики изучения связей и зависимостей явлений, фиксированных путем наблюдения, опроса или по документам[2].

Данные, полученные в ходе социологических исследований, хранятся в различных источниках, которые находятся в Интернете. Они лежат в открытом доступе. В некоторых возможна онлайн обработка данных. Наиболее популярные источники это – Единый архив экономических и социологических данных (ЕАЭСД), Федеральная служба государственной статистики (Росстат), Институт социологии РАН, Исследовательская группа ЦИРКОН и прочие.

Единый архив экономических и социологических данных (ЕАЭСД) – организация, в которой собраны результаты эмпирических исследований, касающиеся сферы наук об обществе, и имеющая свободный и открытый доступ к результатам этих исследований. Архив был основан в 2000 году. На сегодняшний день в базе данных архива насчитывается около 1000 социологических исследований и более 125 временных рядов основных показателей экономики нашей страны.

Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, в котором осуществляются функции по обобщению официальной статистической информации о социальных, экономических, демографических, экологических и других общественных процессах в РФ, а также в порядке и случаях, установленных законодательством РФ, функции по контролю в сфере государственной статистической деятельности.

Институт социологии РАН образовался в 1968 г. В то время его называли Институт конкретных социальных исследований АН СССР.

В настоящее время институт занимается разработкой практического направления социологии и политологии, проводит масштабные эмпирические исследования, работает над социологической экспертизой решений, которые разрабатываются и принимаются властными структурами.

Исследовательская группа ЦИРКОН – одна из старейших в России независимая частная исследовательская компания, специализирующаяся на проведении социологических и маркетинговых исследований, информационно-аналитическом обслуживании, политическом и управленческом консультировании.

Сегодня Исследовательская группа ЦИРКОН имеет очень развитую сетевую структуру, в которую входят несколько коллективов специалистов, функция которых заключается в выполнении различного рода исследовательских и социоинженерных задач.

Методы многомерного анализа

Для анализа социологических данных в социологии применяют многомерные методы. Это такие методы, как регрессионный, факторный, кластерный, дисперсионный ну и другие виды анализа данных.

Регрессионный анализ

Основная цель множественного регрессионного анализа построить регрессионную модель с большим количеством факторов (переменных), определить давление каждого из них в отдельности, а также совместное их взаимодействие на зависимую переменную [3].

Назначение регрессионного анализа состоит в том, что бы построить модель, которая будет позволять по значению независимых показателей принимать оценки значения зависимой переменной. Регрессионный анализ считается основным методом исследования зависимостей между социально–экономическими переменными.

Особенностью социологических исследований является то, что постоянно нужно изучать и предсказывать социальные события.

Факторный анализ

Социологический смысл метода факторного анализа заключается в том, что измеряемые эмпирические показатели, переменные являются следствием других, скрытых от непосредственного измерения характеристик — латентных переменных. Латентность характеристик означает их не наблюдаемость, скрытость. Так как количество общих факторов значительно меньше количества анализируемых признаков, то можно сказать что, методы факторного анализа, направлены на уменьшение размеров анализируемого признакового пространства[4]. Допустим, мы закрепляем уровень доверия респондента к различным государственным институтам. Отсюда будет уместно предположить, что нет отдельных «доверий» к Совету Федерации, Государственной Думе, Счетной палате и проч. Возможно, что у респондента существует общее отношение к институтам центральной власти, которое влияет на то, как респондент будет отвечать на определенные вопросы по доверию к каждому отдельному институту.

Важным имеет значение то, что это общее, единое отношение к институтам государственной власти, формируя отношение к каждому из институтов, не определяет отношения к определенному институту на все 100%. Поэтому, ответ респондента на вопрос о том, насколько он доверяет определенному институту государственной власти, будет зависеть от общего фактора отношения к этим институтам и отдельного отношения именно к конкретному институту.

Метод главных компонент

Наиболее известным из методов поиска факторов выступает метод главных компонент, который заключается в последовательном нахождении факторов. Первым делом находят первый из факторов, который будет объяснять основную часть дисперсии, потом независимый от первого второй фактор, который объясняет большую часть оставшейся дисперсии, и т.д. [5].

Оценка факторов

Математический аппарат, который используется при факторном анализе, в реальности позволяет не вычислять собственно главные оси. За счет операций с корреляционной матрицей вычисляются факторные нагрузки до и после вращения факторов. От сюда следует, что одной из проблем факторного анализа является оценка факторов для объектов.

Когда для анализа применяют метод главных компонент, то факторы , которые имеют свойства, полученные этим методом, находятся с помощью регрессионного уравнения. Для того что бы выполнить оценку регрессионных коэффициентов стандартных переменных, нужно только знать корреляционную матрицу переменных. Корреляционная матрица по переменным Xi и Fk находится из модели и уже имеющейся матрицы корреляций Xi. А от сюда уже с помощью регрессионного метода определяются факторы в виде линейных комбинаций исходных переменных: F_k=\sum_{i}^{ }C_{ki}X_i [1].

Кластерный анализ

Этот вид анализа сжимает данные в классификацию объектов в отличии от факторного, который эти же данные сжимает в малое число количественных переменных.

Задачей кластерного анализа является выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов, при условии, что данные будут восприниматься как точки в признаковом пространстве.

Во время проведения кластерного анализа всегда определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Между объектами существует огромное количество мер близости и расстояний, которые подбирают исходя из целей социологического исследования. В частности, евклидово расстояние лучше всего применять для количественных переменных, расстояние хи–квадрат – для исследования частотных таблиц, так же существует множество мер для бинарных переменных.

Данный вид анализа считается описательной процедурой, он не делает ни каких статистических выводов, он всего лишь изучает структуру совокупности.

Кластерный анализ производит разбиение объектов не по одному параметру, а по целому набору признаков. Кластерный анализ позволяет работать с множеством различных данных фактически любой природы и при этом в отличие от большинства математико–статистических методов, не накладывает никаких ограничений на вид рассматриваемых объектов. Это имеет огромное значение, например, для прогнозирования положения социальных групп, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов. Кластерный анализ предоставляет возможность рассмотреть довольно большой объем информации и резко сводить к минимуму или сжимать большие массивы социально–экономической информации, делать их тесными и наглядными. Особо важную роль кластерный анализ играет тогда, когда его применяют к совокупностям временных рядов, которые характеризуют экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь существует возможность, позволяющая выделить периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа [6].

Сравнительный анализ статистических пакетов

После проведения социологического опроса, социолог должен провести анализ социологических данных и сделать выводы. Для этого он использует статистические пакеты для обработки социологических данных. О платных пакетах известно больше, поэтому остановимся на свободно распространяемом программном обеспечении.

В процессе анализа данных используются такие универсальные методы и программные средства, что они могут быть использованы в таких областях науки, как в социология, экономика, менеджмент. Но применять анализ данных в каждой из областей имеет свои особенности, которые связаны со структурой данных, содержанием задач и интерпретацией результатов.

PSPP

PSPP является программой для статистического анализа выборочных данных. Это бесплатная замена для оригинальной программы SPSS, и является очень похожей на него с некоторыми исключениями. Наиболее важными из этих исключений является то, что она абсолютно бесплатная. Имеется графический интерфейс и можно пользоваться консольными командами. Синтаксис и файлы данных совместимы с SPSS.

PSPP является стабильным и надежным приложением. Она может выполнять описательные статистики, Т–тесты, дисперсионный анализ, линейные и логистические регрессии, меры по ассоциации, кластерный анализ, надежность и факторный анализ, непараметрические критерии и др. PSPP предназначена для выполнения своих анализов так быстро, как это возможно, независимо от размера входных данных.

Прежде чем проводить анализ данных, они должны быть загружены в PSPP и расположены таким образом, чтобы программа и человек могли понять, что представляют собой данные. Есть два аспекта данных:

  • Переменные – это те параметры количество, которых было измерено или оценено в некотором роде. Например, длинна, ширина.
  • Наблюдения (или "случаи") переменных – каждое наблюдение представляет собой случай, когда переменные были измерены или наблюдались.

Deductor Studio

Deductor Studio – это программа, которая включает функции обработки, визуализации, импорта и экспорта данных. Программа настолько универсальна, что способна работать и без базы данных. Она способна брать данные для анализа из любых других источников, но наиболее оптимальным является их совместное использование. В данной программе используется огромно количество инструментов и методов, которые позволяют получать информацию из любых источников данных, проводить весь цикл обработки (очистку, трансформацию данных, построение моделей). Результаты, полученные в ходе анализа, выводятся на экран самым удобным способом (OLAP, таблицы, диаграммы, деревья и т.д.), а так же экспортируются в самых разных форматах.

Epi Info

EpiInfo оптимален для использования при ограниченных сетевых подключениях, а также при небольшом финансовом обеспечении проекта. EpiInfo является гибким, масштабируемым и бесплатным пакетом. Позволяет осуществлять сбор данных, применить все классические методы статистического анализа.

В настоящее время социология динамично развивается. Следовательно, и практика социологических исследований тоже не стоит на месте. Данные о населении (его численности, составе, размещении, занятости, закономерностях воспроизводства социальных групп, изучения социального поведения) имеют большое научное и практическое значение. [7, 8, 9, 10]

Полная и точная информация о населении необходима для объективной оценки уровня социально–экономического развития и демографической ситуации как в стране в целом, так и в отдельных регионах.

Существуют три основных классификации методов сбора социологических данных. Это такие методы как прямое наблюдение, анализ документов и опросы.

Данные, полученные в ходе социологических исследований, хранятся в таких источниках как: Единый Архив Экономических и Социологических Данных (ЕАЭСД), Федеральная служба государственной статистики (Росстат), Институт социологии РАН, Исследовательская группа ЦИРКОН™ и др. В некоторых из них доступна онлайн обработка данных.

Анализ социологических данных является основным этапом социологического исследования. На этом этапе осуществляется конкретная проверка соответствия собранной информации тем моделям социальных явлений, которые, явно или скрыто, имеются у социологов. Для анализа социологических данных в социологии применяют многомерные методы. Это такие методы, как регрессионный, факторный, кластерный, дисперсионный ну и другие виды анализа данных.

Заключительный этап социологического исследования включает обработку и анализ данных. В современном информационно организованном мире невозможно обойтись без всестороннего исследования данных и, следовательно, без системы, позволяющей провести этот анализ. Что бы проанализировать социологические данные и дать им оценку, социологи используют различные статистические пакеты для обработки социологических данных.

Список литературы

  1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. Издательский дом ГУ ВШЭ, 2006. –281
  2. Добреньков В.И., Кравченко А.И. Методы социологического исследования. ИНФРА–М, 2011. – 767 с.
  3. Воскобойников Ю. Е. Построение регрессионных моделей в пакете MathCAD : учебное пособие. –Новосибирск : НГАСУ (Сибстрин), 2009. – 220 с.
  4. Ниворожкина Л. И. Многомерные статистические методы в экономике. –Ростов н/Д: Наука–Спектр, 2008. – 223 с.
  5. Аббакумов В. Л. Бизнес–анализ информации: Издательство Экономика, 2009. – 373 с.
  6. Буреева Н.Н. Многомерный статистический анализ с использованием ППП “STATISTICA”. Нижний Новгород: 2007, 112 с.
  7. Мальцева А.В. Мета–анализ данных социологических исследований: основные понятия, этапы проведения, примеры использования и обработки результатов // Вестник алтайской науки. 2008. № 2. С. 12–18.
  8. Иванова И.А., Махныткина О.В. Современные информационные технологии в социологических исследованиях // NovaInfo.Ru. 2015. Т. 2. № 34. С. 288–295.
  9. Шилкина Н.Е. Теоретические и методные аспекты социологического моделирования социального поведения индивида и группы // Современные исследования социальных проблем (электронный научный журнал). 2012. № 9 (17). С. 48
  10. Шилкина Н.Е. Субъективная оценка среды неопределенности и риска как фактор формирования стратегий адаптационного поведения студенческой молодежи (по материалам социологических исследований начала XXI в.) //
  11. Вестник Самарского государственного университета. 2013. № 2 (103). С. 31-37