Информационно-лингвистические аспекты интернет-исследований

Хрипунов Николай Владимирович

Проведение исследований с использованием открытых сервисов интернет-статистики сайтов обладает значительным потенциалом, особенно в части организации инициативных работ начинающих исследователей [1, 2]. По результатам анализа русскоязычного сегмента Интернета определена группа ресурсов, в наибольшей степени соответствующая исследовательскому применению с точки зрения репрезентативности выборки (количества сайтов) и организации работы с открытой интернет-статистикой сайтов [3]. Вместе с тем, особенно при кросс-ресурсной организации исследований, возникает необходимость корректного соотнесения рубрикаций различных сервисов интернет-статистики сайтов. Актуальность подобной постановки проблемы видна из сравнения параметров рубрикаций основных открытых сервисов интернет-статистики сайтов, которое представлено в таблице 1. Пять исследуемых ресурсов обозначены: 1 - Рейтинг Mail.Ru [4]; 2 - LiveInternet [5]; 3 - Openstat [6]; 4 - Рамблер.Топ100 [7]; 5 - Hotlog [8].

Таблица 1. Параметры рубрикации открытых сервисов интернет-статистики сайтов

Обозначение ресурса	1	2	3	4	5
Количество уровней рубрикации	2	1	1	2	1
Количество рубрик первого уровня	19	47	38	28	148

Примеры рубрик приведены в таблице 2 – показаны по три рубрики из начала, середины и конца списков рубрик, отсортированных по алфавиту. Из приведенных данных можно заключить, что с одной стороны в информационно-лингвистическом смысле рассматриваемые рубрикации достаточно схожи, а с другой имеет место различный уровень детализации и различное наименование схожих по смыслу рубрик. Например, в начале каждого списка есть группа, посвящённая автомобильной тематике, но представление данной группы варьируется как по названию, так и по количеству задействованных рубрик.

Таблица 2. Рубрики открытых сервисов интернет-статистики сайтов

Ресурс

Рубрики начала списка

Рубрики середины списка

Рубрики конца списка

1

Авто/мото

WAP сайты

Вокруг света

Интернет

Карьера/работа

Компьютеры

Спорт

Справки

Юмор

2

Hi-End

MP3

Авто

Музыка

Наука и техника

Недвижимость

Фото

Хостинг

Юмор

3

IT

Авто

Активный отдых

Непознанное

Образование

Общество. Государство

Увлечения. Хобби

Услуги

Финансы

4

Авто и мото

Бизнес

Государство и общество

Непознанное

Новости и СМИ

Образование

Транспорт, перевозки

Услуги

Финансы

5

PC и мобильные игры

Авто СМИ и порталы

Автосалоны и автодилеры

Медицинское оборудование

Мини-игры

Мода

Электронная коммерция

Юмор

Юридические услуги

На основании изложенного, цель работы может быть сформулирована как разработка лингвистической модели, позволяющей эффективно работать с несколькими открытыми сервисами интернет-статистики сайтов.

В качестве методов достижения цели использован принцип агрегации – объединения близких по смыслу рубрик. Предлагаемая методика включает следующие действия:

Сформировать списки рубрикации для парного сравнения. Положим, что Список 1 имеет меньше рубрик, чем Список 2.
На основании Списка 1 сформировать основной массив, включающий полностью совпадающие или близкие по смыслу рубрики сравниваемых списков.
Из рубрик сравниваемых списков, не вошедших в основной массив, сформировать массив остатков. Каждый элемент массива остатков содержит одну рубрику.
Дать наименование каждому элементу основного массива. Каждый элемент массива рассматривается как синонимическое семантическое поле [9], состоящее их рубрик. Процесс именования представляет трансформацию синонимического поля в гипонимическое, что выражается в формировании доминантной лексемы, которая обобщает смысл рубрик, составляющих элемент, и является наименованием элемента.
Исходя из наименований элементов основного массива провести действия п. 2. с целью распределить элементы массива остатков по основному массиву. Возможность такого распределения обеспечивается тем, что за счет гипонимичности наименования относительно рубрик, входящих в состав элемента основного массива, обеспечивается более широкий смысловой охват.
Рассмотреть возможность смыслового объединения и именования элементов массива остатков, не вошедших в именованный основной массив.

Рассмотрим применение предложенной методики объединения рубрикаций для ресурсов 1 (Рейтинг Mail.Ru) и 2 (LiveInternet). В ходе формирования основного массива в списке рубрик ресурса 1 объединены близкие по смыслу рубрики, например, «Интернет» и «WAP сайты» поскольку сайты, специализированные для просмотра с мобильных телефонов входят в Интернет. Основной массив, состоящий из 17 элементов, представлен в таблице 3. Массив остатков содержит рубрики ресурса 2, не вошедшие в основной массив: Реклама, Страхование, Товары и услуги, Недвижимость, Медицина, Безопасность, Города и регионы.

На этапе именования элементов основного массива в ряде случаев доминантные лексемы совпадают с рубриками, входящими в элемент, например, Работа, Компьютеры. В других случаях, например, элемент 4 Бизнес, введение обобщающего наименования позволяет ввести в элемент одну или несколько рубрик из массива остатков.

Таблица 3. Основной массив

№	ресурс 1	ресурс 2	№	ресурс 1	ресурс 2
1	Авто/мото	Авто	10	Культура/Искусство	MP3
2	Вокруг света	Путешествия			Кино
3	Государство Российское	Государство			Культура и искусство
		Общество			Литература
		Политика			Музыка
		Политические партии			Фото
4	Деловой мир	Банки	11	Наука/Техника/Образование	Наука и техника
		Финансы			Обучение
5	Домашний очаг	Дом и семья	12	Непознанное	Непознанное
6	Интернет	Интернет	13	Отдых	Генеалогия
6	WAP сайты	Связь	13	Юмор	Развлечения
		Хостинг			Юмор
		Бесплатное	14	Предприятия	Бухгалтерия
		Персональные страницы			Предприятия
7	Карьера/работа	Работа			Строительство
8	Компьютеры	Hi-End	15	СМИ	Новости и СМИ
		Игры			Телевидение
		Компьютеры	16	Спорт	Спорт
		Софт	17	Справки	Справки
9	Для взрослых	Знакомства и общение			Погода

В результате именования элементов основного массива и распределения массива остатков по именованным элементам не распределенной по основному массиву осталась рубрика Безопасность. Данная рубрика может быть отнесена к нескольким из элементов основного массива и вместе с тем несет собственную имманентную смысловую нагрузку, следовательно, целесообразно присоединить ее к основному массиву в виде отдельного элемента (таблица 4).

Таблица 4. Результаты наименования и распределения

№ элемента	Наименование элемента	Вновь вошедшие рубрики
1	Транспортные средства
2	Туризм и путешествия
3	Государство/общество/регионы	Города и регионы
4	Бизнес	Реклама
		Страхование
		Товары и услуги
		Недвижимость
5	Дом и семья
6	Интернет и коммуникации
7	Работа
8	Компьютеры
9	18+
10	Культура и искусство
11	Наука/Техника/Образование
12	Непознанное
13	Досуг
14	Предприятия
15	Новости и СМИ
16	Спорт и здоровье	Медицина
17	Справки
18	Безопасность

Полученная модель позволяет, опираясь на наименования элементов, оперировать рубриками двух рейтинговых ресурсов.

В целом по результатам работы получено:

Установлено, что открытые сервисы интернет-статистики содержат формально достаточно разнородную рубрикацию, которая затрудняет использование нескольких ресурсов при проведении Интернет-исследований.
Предложена методика, позволяющая разработать модель, объединяющую рубрикации нескольких ресурсов.
Показано применение предложенной методики на рубрикациях открытых сервисов интернет-статистики Рейтинг Mail.Ru и LiveInternet.

Информационно-лингвистические аспекты интернет-исследований

Аннотация

Ключевые слова

Текст научной работы

Читайте также

Значение имиджа государственной службы

Обработка и анализ анкетирования студентов с помощью IBM SPSS

Инструментарий интернет-исследований

Методологические аспекты интернет-исследований

Список литературы

Цитировать

Поделиться