В данной работе в качестве предмета выбрана вторичная недвижимость города Смоленска, в качестве объекта — влияние характеристик квартиры и её расположения в пределах города на цену квартиры. Цель работы — построить средствами регрессионного анализа математическую модель зависимости стоимости квартиры в городе Смоленске от характеристик квартиры и её расположения в городе. В качестве инструмента выступает программный пакет для статистического анализа данных Statistica. Для анализа, используя сайт объявлений «Авито» [1] составлена база, содержащая 320 наблюдений по выбранным характеристикам.
В качестве зависимого признака выступает стоимость квартиры Y (цена квартиры, руб). В качестве независимых выбраны следующие:
X1 — количество комнат;
X2 — общая площадь, м2;
X3 — жилая площадь, м2;
X4 — площадь кухни, м2;
X5 — тип дома (1 — панельный, 2 — кирпичный);
X6 — наличие балкона/лоджии (1 — нет, 2 есть);
X7 — расположение (1 — угловая, 2 — не угловая);
X8 — район города (1 — Заднепровский, 2 — Промышленный, 3 — Ленинский);
Следует отметить, что переменные, Y, X2 — X4 непрерывные, X1, X5, X8 — категориальные переменные.
Задача работы состоит в построении уравнения множественной регрессии для предложенных данных в виде:
Y=f(X1, X2,..., X8). (1)
На первом этапе работы следует проверить нормальность непрерывных величин. Это можно сделать путём построения графиков «на нормальной бумаге» в пакете Statistica. На рисунке 1 «Нормальность непрерывных величин» представлены нормальные графики для переменных Y, X2 — X4.

В результате можно сделать вывод, что все непрерывные переменные имеют нормальное распределение. Для категориальных переменных нормальность не вызывает сомнения.
Рассмотрим уравнение линейной множественной регрессии, то есть функция в уравнении (1) — линейная комбинация переменных X1 — X8.
Перед построением уравнения регрессии необходимо убедиться в отсутствии мультиколлинеарности — линейной зависимости между зависимыми переменными. Наличие мультиколлинеарности может привести к неустойчивости оценок коэффициентов линейной регрессии, завышению дисперсии этих коэффициентов и к завышению значения множественного коэффициента корреляции [2].
Информацию о мультиколлинеарности можно получить, если посмотреть на исходную матрицу корреляций. Если в данной матрице присутствуют высокие парные коэффициенты корреляции между какими-либо двумя переменными, то для избавления мультиколлинеарности достаточно убрать из анализа одну из этих переменных.
Исходя из рисунка 2 «Матрица парных коэффициентов» заключаем, что из анализа следует убрать переменные X1 (количество комнат) и X2 (общая площадь).

Таким образом, линейная регрессионная модель будет содержать переменные X3 — X8.
Средствами пакета Statistica получена линейная модель зависимости цены квартиры в городе Смоленске от факторов X3 — X8 в виде:
Y=a0+a1·X3+a2·X4+a3·X5+a4·X6+a5·X7+a6·X8 (2)
В результате получены результаты, представленные в таблице 1 «Результаты линейной модели»
Таблица 1. Результаты линейной модели
Параметр |
Коэффициент a |
Стандартная ошибка a |
Значение t — критерия |
Значение p |
Свободный член |
-1130512 |
150018 |
-7,536 |
0,000000 |
| X3 | 30728 |
2122 |
14,478 |
0,000000 |
| X4 | 119268 |
9266 |
12,870 |
0,000000 |
| X5 | 145692 |
43109 |
3,380 |
0,000818 |
| X6 | 198938 |
47676 |
4,173 |
0,000039 |
| X7 | 142027 |
41547 |
3,418 |
0,000713 |
| X8 | 161428 |
26481 |
6,096 |
0,000000 |
Таким образом, модель (2) принимает вид:
Y=-1130512+30728·X3+119268·X4+145692·X5+198938·X6+142027·X7+161428·X8 (3)
Коэффициент a, входящие в уравнение являются статистически значимыми, так как tтабл = 1,96набл | на уровне значимости 0,05.
Статистическая значимость модели (3) обусловлена высоким значением коэффициента множественной корреляции R=0,81 и тем, что значение критерия Фишера, равного в данной модели 100,933 больше табличного, равного 2,25 при соответствующем числе степеней свободы и уровне значимости 0,05. Так же следует отметить, что коэффициент детерминации R2=0,67, что означает описание уравнением (3) 67% изменения зависимой переменной Y.
При анализе остатков, полученных по модели (3) выявлена их нормальность. На рисунке 3 «Остатки» представлены график «на нормальной бумаге» и гистограмма нормального распределения.

Для определения величины вклада каждой переменной в изменение результирующей переменой, необходимо определить коэффициенты уравнение (2) для стандартизированных переменных X3 — X8 путём построения множественной линейной модели с этими переменными. В таблице 2 «Коэффициенты регрессионного уравнения» приведены значения коэффициентов регрессионной модели для стандартизированных переменных. Чем больше величина коэффициента, тем больше вклад соответствующей переменной на изменение результирующей.
Таблица 2. Коэффициенты регрессионного уравнения
Параметр |
Коэффициент a |
| X3 | 0,482502 |
| X4 | 0,466647 |
| X5 | 0,116473 |
| X6 | 0,149981 |
| X7 | 0,114137 |
| X8 | 0,206513 |
На зависимую переменную Y (стоимость квартиры в городе Смоленске) наибольшее влияние оказывают следующие переменные:
X3 — жилая площадь, м2;
X4 — площадь кухни, м2;
X8 — район города.
Положительное значение данных коэффициентов говорит о росте Y (стоимость квартиры в городе Смоленске) с увеличением X3, X4 , X8 .
Таким образом, уравнение зависимости стоимости квартиры в городе Смоленске от параметров X3 — X8 имеет вид:
Y=-1130512+30728·X3+119268·X4+145692·X5+198938·X6+142027·X7+161428·X8
Наибольшее влияние на стоимость квартиры оказывают показатели, характеризующие площадь и её местонахождении в городе. Наибольшую стоимость имеют квартиры, расположенные в Ленинском районе (это центральный исторический район города), а наименьшую — в Заднепровским (данный район достаточно удалён от центра города, крупных торговых центров и основных производств).