Проведение исследований с использованием открытых сервисов интернет-статистики сайтов обладает значительным потенциалом, особенно в части организации инициативных работ начинающих исследователей [1, 2]. По результатам анализа русскоязычного сегмента Интернета определена группа ресурсов, в наибольшей степени соответствующая исследовательскому применению с точки зрения репрезентативности выборки (количества сайтов) и организации работы с открытой интернет-статистикой сайтов [3]. Вместе с тем, особенно при кросс-ресурсной организации исследований, возникает необходимость корректного соотнесения рубрикаций различных сервисов интернет-статистики сайтов. Актуальность подобной постановки проблемы видна из сравнения параметров рубрикаций основных открытых сервисов интернет-статистики сайтов, которое представлено в таблице 1. Пять исследуемых ресурсов обозначены: 1 - Рейтинг Mail.Ru [4]; 2 - LiveInternet [5]; 3 - Openstat [6]; 4 - Рамблер.Топ100 [7]; 5 - Hotlog [8].
Таблица 1. Параметры рубрикации открытых сервисов интернет-статистики сайтов
Обозначение ресурса |
1 |
2 |
3 |
4 |
5 |
Количество уровней рубрикации |
2 |
1 |
1 |
2 |
1 |
Количество рубрик первого уровня |
19 |
47 |
38 |
28 |
148 |
Примеры рубрик приведены в таблице 2 – показаны по три рубрики из начала, середины и конца списков рубрик, отсортированных по алфавиту. Из приведенных данных можно заключить, что с одной стороны в информационно-лингвистическом смысле рассматриваемые рубрикации достаточно схожи, а с другой имеет место различный уровень детализации и различное наименование схожих по смыслу рубрик. Например, в начале каждого списка есть группа, посвящённая автомобильной тематике, но представление данной группы варьируется как по названию, так и по количеству задействованных рубрик.
Таблица 2. Рубрики открытых сервисов интернет-статистики сайтов
Ресурс |
Рубрики начала списка |
Рубрики середины списка |
Рубрики конца списка |
1 |
Авто/мото WAP сайты Вокруг света |
Интернет Карьера/работа Компьютеры |
Спорт Справки Юмор |
2 |
Hi-End MP3 Авто |
Музыка Наука и техника Недвижимость |
Фото Хостинг Юмор |
3 |
IT Авто Активный отдых |
Непознанное Образование Общество. Государство |
Увлечения. Хобби Услуги Финансы |
4 |
Авто и мото Бизнес Государство и общество |
Непознанное Новости и СМИ Образование |
Транспорт, перевозки Услуги Финансы |
5 |
PC и мобильные игры Авто СМИ и порталы Автосалоны и автодилеры |
Медицинское оборудование Мини-игры Мода |
Электронная коммерция Юмор Юридические услуги |
На основании изложенного, цель работы может быть сформулирована как разработка лингвистической модели, позволяющей эффективно работать с несколькими открытыми сервисами интернет-статистики сайтов.
В качестве методов достижения цели использован принцип агрегации – объединения близких по смыслу рубрик. Предлагаемая методика включает следующие действия:
- Сформировать списки рубрикации для парного сравнения. Положим, что Список 1 имеет меньше рубрик, чем Список 2.
- На основании Списка 1 сформировать основной массив, включающий полностью совпадающие или близкие по смыслу рубрики сравниваемых списков.
- Из рубрик сравниваемых списков, не вошедших в основной массив, сформировать массив остатков. Каждый элемент массива остатков содержит одну рубрику.
- Дать наименование каждому элементу основного массива. Каждый элемент массива рассматривается как синонимическое семантическое поле [9], состоящее их рубрик. Процесс именования представляет трансформацию синонимического поля в гипонимическое, что выражается в формировании доминантной лексемы, которая обобщает смысл рубрик, составляющих элемент, и является наименованием элемента.
- Исходя из наименований элементов основного массива провести действия п. 2. с целью распределить элементы массива остатков по основному массиву. Возможность такого распределения обеспечивается тем, что за счет гипонимичности наименования относительно рубрик, входящих в состав элемента основного массива, обеспечивается более широкий смысловой охват.
- Рассмотреть возможность смыслового объединения и именования элементов массива остатков, не вошедших в именованный основной массив.
Рассмотрим применение предложенной методики объединения рубрикаций для ресурсов 1 (Рейтинг Mail.Ru) и 2 (LiveInternet). В ходе формирования основного массива в списке рубрик ресурса 1 объединены близкие по смыслу рубрики, например, «Интернет» и «WAP сайты» поскольку сайты, специализированные для просмотра с мобильных телефонов входят в Интернет. Основной массив, состоящий из 17 элементов, представлен в таблице 3. Массив остатков содержит рубрики ресурса 2, не вошедшие в основной массив: Реклама, Страхование, Товары и услуги, Недвижимость, Медицина, Безопасность, Города и регионы.
На этапе именования элементов основного массива в ряде случаев доминантные лексемы совпадают с рубриками, входящими в элемент, например, Работа, Компьютеры. В других случаях, например, элемент 4 Бизнес, введение обобщающего наименования позволяет ввести в элемент одну или несколько рубрик из массива остатков.
Таблица 3. Основной массив
№ |
ресурс 1 |
ресурс 2 |
№ |
ресурс 1 |
ресурс 2 |
1 |
Авто/мото |
Авто |
10 |
Культура/Искусство |
MP3 |
2 |
Вокруг света |
Путешествия |
Кино |
||
3 |
Государство Российское |
Государство |
Культура и искусство |
||
Общество |
Литература |
||||
Политика |
Музыка |
||||
Политические партии |
Фото |
||||
4 |
Деловой мир |
Банки |
11 |
Наука/Техника/Образование |
Наука и техника |
Финансы |
Обучение |
||||
5 |
Домашний очаг |
Дом и семья |
12 |
Непознанное |
Непознанное |
6 |
Интернет |
Интернет |
13 |
Отдых |
Генеалогия |
6 |
WAP сайты |
Связь |
13 |
Юмор |
Развлечения |
Хостинг |
Юмор |
||||
Бесплатное |
14 |
Предприятия |
Бухгалтерия |
||
Персональные страницы |
Предприятия |
||||
7 |
Карьера/работа |
Работа |
Строительство |
||
8 |
Компьютеры |
Hi-End |
15 |
СМИ |
Новости и СМИ |
Игры |
Телевидение |
||||
Компьютеры |
16 |
Спорт |
Спорт |
||
Софт |
17 |
Справки |
Справки |
||
9 |
Для взрослых |
Знакомства и общение |
Погода |
В результате именования элементов основного массива и распределения массива остатков по именованным элементам не распределенной по основному массиву осталась рубрика Безопасность. Данная рубрика может быть отнесена к нескольким из элементов основного массива и вместе с тем несет собственную имманентную смысловую нагрузку, следовательно, целесообразно присоединить ее к основному массиву в виде отдельного элемента (таблица 4).
Таблица 4. Результаты наименования и распределения
№ элемента |
Наименование элемента |
Вновь вошедшие рубрики |
1 |
Транспортные средства |
|
2 |
Туризм и путешествия |
|
3 |
Государство/общество/регионы |
Города и регионы |
4 |
Бизнес |
Реклама |
Страхование |
||
Товары и услуги |
||
Недвижимость |
||
5 |
Дом и семья |
|
6 |
Интернет и коммуникации |
|
7 |
Работа |
|
8 |
Компьютеры |
|
9 |
18+ |
|
10 |
Культура и искусство |
|
11 |
Наука/Техника/Образование |
|
12 |
Непознанное |
|
13 |
Досуг |
|
14 |
Предприятия |
|
15 |
Новости и СМИ |
|
16 |
Спорт и здоровье |
Медицина |
17 |
Справки |
|
18 |
Безопасность |
Полученная модель позволяет, опираясь на наименования элементов, оперировать рубриками двух рейтинговых ресурсов.
В целом по результатам работы получено:
- Установлено, что открытые сервисы интернет-статистики содержат формально достаточно разнородную рубрикацию, которая затрудняет использование нескольких ресурсов при проведении Интернет-исследований.
- Предложена методика, позволяющая разработать модель, объединяющую рубрикации нескольких ресурсов.
- Показано применение предложенной методики на рубрикациях открытых сервисов интернет-статистики Рейтинг Mail.Ru и LiveInternet.