ФОРМИРОВАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ ПРИ ПРОВЕДЕНИИ ИНТЕРНЕТ-ИССЛЕДОВАНИЙ

№58-1,

Социологические науки

В статье предложен алгоритм исследования предметной области с использованием поисковых систем и контент-анализа. Методика предусматривает поэтапное исследование предметной области с детализацией поисковых запросов, формирование сбалансированного перечня Интернет-ресурсов, описывающих предметную область и обладающих открытой интернет-статистикой. Рассмотрен пример выполнения количественного частотного контент-анализа листов выдачи поисковой системы с формированием детализированных поисковых запросов.

Похожие материалы

Важным преимуществом проведения интернет-исследований является возможность отследить в реальном времени реакцию целевой аудитории на новую актуальную информацию. Чаще всего под интернет-исследованиями понимают проведение опросов и анкетирования в электронной форме [1]. Классификация методов социологического интернет-исследования, предложенная М. Купером [2], выделяет методы, не основанные на вероятностной выборке (SLOP-методы - аббревиатура выражения «Self-selected Listener Opinion Poll») к которым относятся:

  1. Опросы для интереса.
  2. Опросы независимых посетителей информационного ресурса (без регистрации).
  3. Панели анкетирования, образованные из зарегистрированных добровольцев.

К методам, основанным на вероятностной выборке относятся:

  1. Опрос посетителей сайта, отобранных по принципу случайной выборки.
  2. Выборка комплектуется из специально созданной базы данных о респондентах.
  3. Участники панелей анкетирования, созданных на основе случайных выборок из социально-профессиональных групп.
  4. Случайная выборка пользователей Интернета.
  5. Случайная выборка из населения.

Использование в качестве индикатора реакции целевой аудитории данных веб-мониторинга группы сайтов, представляющих определенную предметную область [3] может быть отнесено к пункту 2.4 описанной классификации. При этом в качестве объекта исследования выступают сайты. Инструментом исследования являются открытые сервисы интернет-статистики. Респонденты же, являясь пользователями Интернета, создают трафик сайтов, который фиксируется сервисами интернет-статистики.

Непосредственная цель создания сервисов интернет-статистики как частного случая процессов веб-мониторинга – это поисковая оптимизация интернет-сайтов (search engine optimization, SEO). Статистические данные о посетителях сайтов представляют широкие возможности сегментации посетителей по полу, возрасту, территориальному признаку. Учет технических особенностей доступа (разрешение экрана, операционная система, используемая программа-браузер, типу устройства) позволяет сегментировать косвенным образом по уровню доходов. Таким образом, информация открытых сервисов интернет-статистики является подробной и структурированной и хорошо подходит для использования в интернет-исследованиях. Процесс выбора объектов – списка адресов сайтов с открытой статистикой и принадлежащих предметной области исследования – не формализован. В настоящей работе предлагается методика формирования списка сайтов, основанная на использовании поисковых систем.

Нередко предмет, динамику общественного отношения к которому необходимо исследовать с применением ресурсов веб-мониторинга [4], не может быть четко отнесен к какой либо конкретной категории из рубрикаций сервисов интернет-статистики [5]. Таким образом, возможная стратегия состоит в подготовке перечня ресурсов – представителей предметной области исследования с дальнейшим определением индексируемости каждого ресурса в той или иной системе интернет-рейтинга.

Последовательность формирования списка исследуемых ресурсов:

  1. Поиск в поисковых системах по запросу темы исследования
  2. Анализ результатов и формулирование уточненных запросов
  3. Поиск в поисковых системах по уточненным запросам.
  4. Составление по каждому уточненному запросу рейтинга найденных ресурсов по позиции в листе выдачи поисковой системы.
  5. Исследование списков найденных ресурсов на принадлежность той или иной системе рейтинга с учетом открытости информации. Формирование списка исследуемых ресурсов доступных к подробному исследованию и сбалансированных по уточненным запросам.

На первом этапе в результате поиска через поисковые системы с запросом соответствующим теме исследования желательно получить листы выдачи с нескольких поисковых систем. При выборе поисковых систем можно ориентироваться на общий рейтинг - по результатам обзора нескольких независимых источников [6, 7, 8], в русскоязычном интернете наиболее популярными поисковиками являются Яндекс, Google и Mail.ru. Также при необходимости выбор поисковых систем можно производить исходя из специализации, например, система Nigma [9] , более приспособлена для работы с научной информацией. Выходом первого этапа являются листы выдачи первого уровня. Количество листов соответствует числу выбранных поисковых сервисов.

На втором этапе необходимо проанализировать листы выдачи с целью структуризации по типам и видам ресурсов, имеющих отношение к исследуемой предметной области, например по форме организации – тематический сайт, форум, информационно-новостной портал и т.п. Выделив несколько подразделов темы исследования и сформулировав релевантные им уточненные поисковые запросы. На данном этапе исследований весьма эффективно использование количественного контент–анализа [10] текстовых массивов с выделением наиболее часто употребляемых значимых слов. Для этого может быть использовано как специализированное программное обеспечение, так и онлайн-сервисы, например, онлайн-анализаторы текста [11, 12]. В результате второго этапа формулируются несколько уточненных поисковых запросов, отражающих различные варианты именования ресурсов, связанных с темой исследования, в листах выдачи первого уровня.

Результаты поиска по уточненным ключам формируют листы выдачи второго уровня – число листов равно произведению числа поисковых систем и числа уточненных запросов.

В качестве примера - результаты контент-анализа первых трех листов выдачи Яндекс по запросу «информационные технологии сайт» (таблица 1) позволяют установить, что, с учетом направленности исследования, целесообразно использовать в тексте запроса такие слова как: связь, система, управление, разработка, образование. Варианты уточненных поисковых запросов могут быть сформулированы следующим образом:

  • информационные технологии в образовании;
  • системы и технологии связи;
  • управление информационными технологиями;
  • развитие информационных технологий;
  • разработка информационных технологий.

Таблица 1. Результаты частотного анализа листов выдачи

Слово

количество

процент

Слово

количество

процент

1

информационный

65

6.1%

11

rueconomics

6

0.5%

2

технология

64

6%

12

информация

6

0.5%

3

сайт

27

2.5%

13

работа

6

0.5%

4

россия

21

1.9%

14

разработка

5

0.4%

5

министерство

8

0.7%

15

развитие

5

0.4%

6

связь

8

0.7%

16

деятельность

5

0.4%

7

область

8

0.7%

17

образование

5

0.4%

8

система

7

0.6%

18

реклама

5

0.4%

9

управление

6

0.5%

19

отзыв

5

0.4%

10

центр

6

0.5%

20

рейтинг

4

0.3%

Четвертый этап формирования перечня ресурсов, отражающего предметную область интернет-исследования, состоит в ранжировке данных листов выдачи второго уровня, относящихся к теме исследования, по признаку номера позиции в листе выдачи. Результат четвертого этапа - списки ресурсов, отсортированные по номеру позиции в листе выдачи. Количество списков соответствует количеству уточненных запросов.

На пятом этапе начиная с верхних позиций списков ресурсов выполняется проверка на наличие ресурса в том или ином интернет-рейтинге и доступности статистики ресурса. Результатом является список ресурсов с доступной статистикой и в равной пропорции отражающий различные варианты именования ресурсов, связанных с темой исследования. Анализ посетителей подобной выборки сайтов в достаточной мере может быть соотнесен с классическими вариантами проведения исследований опросными методами в определенной предметной области. Более того – если применение опросных методов дает только определенный «мгновенный» срез мнений целевой аудитории, то разворачивание интернет-статистики сайтов по времени легко обеспечивает возможность исследования динамики изменения мнений целевой аудитории.

Учитывая коммерческую направленность большинства наиболее популярных поисковых систем при практической реализации описанного алгоритма возможны случаи, когда основную часть листов выдачи будут занимать предложения товаров или услуг так или иначе связанных с поисковым запросом. В этом случае необходимо либо исключить подобные результаты из дальнейшего анализа, либо заменить поисковую систему, либо использовать для поиска непосредственно каталоги ресурсов интернет-рейтинга.

В целом предлагаемая методика позволяет провести декомпозицию предметной области интернет-исследования выделив несколько подобластей на основании частотного анализа текстов поисковых систем, и сформировать сбалансированный по подобластям перечень обладающих открытой статистикой ресурсов.

Список литературы

  1. Чугунов А.В. Социология Интернета: методика и практика исследований интернет-аудитории. Учебное пособие. // СПб.: Ф-т филологии и искусств СПбГУ, 2007. - 130 с.
  2. Couper Mick P. Web Surveys // Rev. of Issues and Approaches Public Opinion Quarterly.2000. Vol. 64. P. 464 – 494.
  3. Хрипунов Н.В. Методологические аспекты интернет-исследований // NovaInfo.Ru. 2016. Т. 4. № 57. С. 477-483.
  4. Хрипунов Н.В. Инструментарий интернет-исследований // NovaInfo.Ru. 2016. Т. 4. № 57. С. 492-495.
  5. Хрипунов Н.В. Информационно-лингвистические аспекты интернет-исследований // NovaInfo.Ru. 2016. Т. 4. № 57. С. 498-502.
  6. Рубан М.Н. Присутствие компании в интернет-пространстве // NovaInfo.Ru. 2016. Т. 4. № 47. С. 97-99.
  7. Рейтинг поисковых систем [Электронный ресурс] // Режим доступа: http://www.gs.seo-auditor.com.ru/sep
  8. Поисковики интернета – рейтинг, критерии оценки, описание [Электронный ресурс] // Режим доступа: http://biznessystem.ru/2016/05/poiskoviki-interneta-rejting-kriterii-ocenki-opisanie
  9. Нигма. Интеллектуальная поисковая система [Электронный ресурс] // Режим доступа: http://www.nigma.ru
  10. Хрипунов Н.В. Применение универсальных информационных технологий в практике решения экономических задач // Научный альманах. 2015. №12(14) – 1. С. 382-385.
  11. Семантический анализ текста [Электронный ресурс] // Режим доступа: https://istio.com/ru/tools/text/analysis.
  12. Полный семантический анализ текста онлайн (seo-анализ) [Электронный ресурс] // Режим доступа: https://miratext.ru/seo_analiz_text