Информационно-лингвистические аспекты интернет-исследований

NovaInfo 57, с.498-502, скачать PDF
Опубликовано
Раздел: Социологические науки
Просмотров за месяц: 1
CC BY-NC

Аннотация

В статье рассмотрен вопрос рубрикации открытых Интернет-сервисов рейтинговой статистики. Показано, что для проведения Интернет-исследований с использованием нескольких сервисов необходимо согласовать их рубрикации. Предложена методика, позволяющая разработать модель, объединяющую рубрикации нескольких ресурсов. Показано применение предложенной методики на практическом примере.

Ключевые слова

СЕМАНТИЧЕСКОЕ ПОЛЕ, ИНТЕРНЕТ, РЕЙТИНГОВЫЕ СЕРВИСЫ, РУБРИКАЦИЯ ИНТЕРНЕТ-РЕСУРСОВ, ЛИНГВИСТИЧЕСКАЯ МОДЕЛЬ

Текст научной работы

Проведение исследований с использованием открытых сервисов интернет-статистики сайтов обладает значительным потенциалом, особенно в части организации инициативных работ начинающих исследователей [1, 2]. По результатам анализа русскоязычного сегмента Интернета определена группа ресурсов, в наибольшей степени соответствующая исследовательскому применению с точки зрения репрезентативности выборки (количества сайтов) и организации работы с открытой интернет-статистикой сайтов [3]. Вместе с тем, особенно при кросс-ресурсной организации исследований, возникает необходимость корректного соотнесения рубрикаций различных сервисов интернет-статистики сайтов. Актуальность подобной постановки проблемы видна из сравнения параметров рубрикаций основных открытых сервисов интернет-статистики сайтов, которое представлено в таблице 1. Пять исследуемых ресурсов обозначены: 1 - Рейтинг Mail.Ru [4]; 2 - LiveInternet [5]; 3 - Openstat [6]; 4 - Рамблер.Топ100 [7]; 5 - Hotlog [8].

Таблица 1. Параметры рубрикации открытых сервисов интернет-статистики сайтов

Обозначение ресурса

1

2

3

4

5

Количество уровней рубрикации

2

1

1

2

1

Количество рубрик первого уровня

19

47

38

28

148

Примеры рубрик приведены в таблице 2 – показаны по три рубрики из начала, середины и конца списков рубрик, отсортированных по алфавиту. Из приведенных данных можно заключить, что с одной стороны в информационно-лингвистическом смысле рассматриваемые рубрикации достаточно схожи, а с другой имеет место различный уровень детализации и различное наименование схожих по смыслу рубрик. Например, в начале каждого списка есть группа, посвящённая автомобильной тематике, но представление данной группы варьируется как по названию, так и по количеству задействованных рубрик.

Таблица 2. Рубрики открытых сервисов интернет-статистики сайтов

Ресурс

Рубрики начала списка

Рубрики середины списка

Рубрики конца списка

1

Авто/мото

WAP сайты

Вокруг света

Интернет

Карьера/работа

Компьютеры

Спорт

Справки

Юмор

2

Hi-End

MP3

Авто

Музыка

Наука и техника

Недвижимость

Фото

Хостинг

Юмор

3

IT

Авто

Активный отдых

Непознанное

Образование

Общество. Государство

Увлечения. Хобби

Услуги

Финансы

4

Авто и мото

Бизнес

Государство и общество

Непознанное

Новости и СМИ

Образование

Транспорт, перевозки

Услуги

Финансы

5

PC и мобильные игры

Авто СМИ и порталы

Автосалоны и автодилеры

Медицинское оборудование

Мини-игры

Мода

Электронная коммерция

Юмор

Юридические услуги

На основании изложенного, цель работы может быть сформулирована как разработка лингвистической модели, позволяющей эффективно работать с несколькими открытыми сервисами интернет-статистики сайтов.

В качестве методов достижения цели использован принцип агрегации – объединения близких по смыслу рубрик. Предлагаемая методика включает следующие действия:

  1. Сформировать списки рубрикации для парного сравнения. Положим, что Список 1 имеет меньше рубрик, чем Список 2.
  2. На основании Списка 1 сформировать основной массив, включающий полностью совпадающие или близкие по смыслу рубрики сравниваемых списков.
  3. Из рубрик сравниваемых списков, не вошедших в основной массив, сформировать массив остатков. Каждый элемент массива остатков содержит одну рубрику.
  4. Дать наименование каждому элементу основного массива. Каждый элемент массива рассматривается как синонимическое семантическое поле [9], состоящее их рубрик. Процесс именования представляет трансформацию синонимического поля в гипонимическое, что выражается в формировании доминантной лексемы, которая обобщает смысл рубрик, составляющих элемент, и является наименованием элемента.
  5. Исходя из наименований элементов основного массива провести действия п. 2. с целью распределить элементы массива остатков по основному массиву. Возможность такого распределения обеспечивается тем, что за счет гипонимичности наименования относительно рубрик, входящих в состав элемента основного массива, обеспечивается более широкий смысловой охват.
  6. Рассмотреть возможность смыслового объединения и именования элементов массива остатков, не вошедших в именованный основной массив.

Рассмотрим применение предложенной методики объединения рубрикаций для ресурсов 1 (Рейтинг Mail.Ru) и 2 (LiveInternet). В ходе формирования основного массива в списке рубрик ресурса 1 объединены близкие по смыслу рубрики, например, «Интернет» и «WAP сайты» поскольку сайты, специализированные для просмотра с мобильных телефонов входят в Интернет. Основной массив, состоящий из 17 элементов, представлен в таблице 3. Массив остатков содержит рубрики ресурса 2, не вошедшие в основной массив: Реклама, Страхование, Товары и услуги, Недвижимость, Медицина, Безопасность, Города и регионы.

На этапе именования элементов основного массива в ряде случаев доминантные лексемы совпадают с рубриками, входящими в элемент, например, Работа, Компьютеры. В других случаях, например, элемент 4 Бизнес, введение обобщающего наименования позволяет ввести в элемент одну или несколько рубрик из массива остатков.

Таблица 3. Основной массив

ресурс 1

ресурс 2

ресурс 1

ресурс 2

1

Авто/мото

Авто

10

Культура/Искусство

MP3

2

Вокруг света

Путешествия

Кино

3

Государство Российское

Государство

Культура и искусство

Общество

Литература

Политика

Музыка

Политические партии

Фото

4

Деловой мир

Банки

11

Наука/Техника/Образование

Наука и техника

Финансы

Обучение

5

Домашний очаг

Дом и семья

12

Непознанное

Непознанное

6

Интернет

Интернет

13

Отдых

Генеалогия

6

WAP сайты

Связь

13

Юмор

Развлечения

Хостинг

Юмор

Бесплатное

14

Предприятия

Бухгалтерия

Персональные страницы

Предприятия

7

Карьера/работа

Работа

Строительство

8

Компьютеры

Hi-End

15

СМИ

Новости и СМИ

Игры

Телевидение

Компьютеры

16

Спорт

Спорт

Софт

17

Справки

Справки

9

Для взрослых

Знакомства и общение

Погода

В результате именования элементов основного массива и распределения массива остатков по именованным элементам не распределенной по основному массиву осталась рубрика Безопасность. Данная рубрика может быть отнесена к нескольким из элементов основного массива и вместе с тем несет собственную имманентную смысловую нагрузку, следовательно, целесообразно присоединить ее к основному массиву в виде отдельного элемента (таблица 4).

Таблица 4. Результаты наименования и распределения

№ элемента

Наименование элемента

Вновь вошедшие рубрики

1

Транспортные средства

2

Туризм и путешествия

3

Государство/общество/регионы

Города и регионы

4

Бизнес

Реклама

Страхование

Товары и услуги

Недвижимость

5

Дом и семья

6

Интернет и коммуникации

7

Работа

8

Компьютеры

9

18+

10

Культура и искусство

11

Наука/Техника/Образование

12

Непознанное

13

Досуг

14

Предприятия

15

Новости и СМИ

16

Спорт и здоровье

Медицина

17

Справки

18

Безопасность

Полученная модель позволяет, опираясь на наименования элементов, оперировать рубриками двух рейтинговых ресурсов.

В целом по результатам работы получено:

  1. Установлено, что открытые сервисы интернет-статистики содержат формально достаточно разнородную рубрикацию, которая затрудняет использование нескольких ресурсов при проведении Интернет-исследований.
  2. Предложена методика, позволяющая разработать модель, объединяющую рубрикации нескольких ресурсов.
  3. Показано применение предложенной методики на рубрикациях открытых сервисов интернет-статистики Рейтинг Mail.Ru и LiveInternet.

Читайте также

Список литературы

  1. Хрипунов Н.В. Методологические аспекты интернет-исследований // NovaInfo.Ru (Электронный журнал.) – 2016 г. – № 57; URL: http://novainfo.ru/article/10062.
  2. Хрипунов Н.В. Применение универсальных информационных технологий в практике решения экономических задач // Научный альманах. 2015. №12(14) – 1. С. 382-385.
  3. Хрипунов Н.В. Инструментарий интернет-исследований // NovaInfo.Ru (Электронный журнал.) – 2016 г. – № 57; URL: http://novainfo.ru/article/10106
  4. Рейтинг Mail.Ru - рейтинг интернет-ресурсов [Электронный ресурс] // Режим доступа: http://top.mail.ru
  5. LiveInternet - рейтинг сайтов [Электронный ресурс] // Режим доступа: http://liveinternet.ru/rating/ru
  6. Рейтинг сайтов по данным Openstat [Электронный ресурс] // Режим доступа: http://rating.openstat.com
  7. Рамблер.Топ100 — счетчик [Электронный ресурс] // Режим доступа: http://top100.rambler.ru
  8. Hotlog — сервис интернет-статистики [Электронный ресурс] // Режим доступа: http://hotlog.ru
  9. Википедия. Свободная энциклопедия. Статья «Семантическое поле» [Электронный ресурс] // Режим доступа: https://ru.wikipedia.org/wiki/Семантическое_поле

Цитировать

Хрипунов, Н.В. Информационно-лингвистические аспекты интернет-исследований / Н.В. Хрипунов. — Текст : электронный // NovaInfo, 2016. — № 57. — С. 498-502. — URL: https://novainfo.ru/article/10164 (дата обращения: 19.05.2022).

Поделиться