Множественная модель зависимости стоимости квартиры от её характеристик и расположения

№75-2,

Физико-математические науки

В статье предложена математическая модель зависимости стоимости квартиры в городе Смоленске от её характеристик и расположения в городе. Полученная модель пригодна для получения прогноза цены квартиры и является статистически значимой.

Похожие материалы

В данной работе в качестве предмета выбрана вторичная недвижимость города Смоленска, в качестве объекта — влияние характеристик квартиры и её расположения в пределах города на цену квартиры. Цель работы — построить средствами регрессионного анализа математическую модель зависимости стоимости квартиры в городе Смоленске от характеристик квартиры и её расположения в городе. В качестве инструмента выступает программный пакет для статистического анализа данных Statistica. Для анализа, используя сайт объявлений «Авито» [1] составлена база, содержащая 320 наблюдений по выбранным характеристикам.

В качестве зависимого признака выступает стоимость квартиры Y (цена квартиры, руб). В качестве независимых выбраны следующие:

X1 — количество комнат;
X2 — общая площадь, м2;
X3 — жилая площадь, м2;
X4 — площадь кухни, м2;
X5 — тип дома (1 — панельный, 2 — кирпичный);
X6 — наличие балкона/лоджии (1 — нет, 2 есть);
X7 — расположение (1 — угловая, 2 — не угловая);
X8 — район города (1 — Заднепровский, 2 — Промышленный, 3 — Ленинский);

Следует отметить, что переменные, Y, X2 — X4 непрерывные, X1, X5, X8 — категориальные переменные.

Задача работы состоит в построении уравнения множественной регрессии для предложенных данных в виде:

Y=f(X1, X2,..., X8). (1)

На первом этапе работы следует проверить нормальность непрерывных величин. Это можно сделать путём построения графиков «на нормальной бумаге» в пакете Statistica. На рисунке 1 «Нормальность непрерывных величин» представлены нормальные графики для переменных Y, X2 — X4.

Нормальность непрерывных величин
Рисунок 1. Нормальность непрерывных величин

В результате можно сделать вывод, что все непрерывные переменные имеют нормальное распределение. Для категориальных переменных нормальность не вызывает сомнения.

Рассмотрим уравнение линейной множественной регрессии, то есть функция в уравнении (1) — линейная комбинация переменных X1 — X8.

Перед построением уравнения регрессии необходимо убедиться в отсутствии мультиколлинеарности — линейной зависимости между зависимыми переменными. Наличие мультиколлинеарности может привести к неустойчивости оценок коэффициентов линейной регрессии, завышению дисперсии этих коэффициентов и к завышению значения множественного коэффициента корреляции [2].

Информацию о мультиколлинеарности можно получить, если посмотреть на исходную матрицу корреляций. Если в данной матрице присутствуют высокие парные коэффициенты корреляции между какими-либо двумя переменными, то для избавления мультиколлинеарности достаточно убрать из анализа одну из этих переменных.

Исходя из рисунка 2 «Матрица парных коэффициентов» заключаем, что из анализа следует убрать переменные X1 (количество комнат) и X2 (общая площадь).

Матрица парных коэффициентов
Рисунок 2. Матрица парных коэффициентов

Таким образом, линейная регрессионная модель будет содержать переменные X3 — X8.

Средствами пакета Statistica получена линейная модель зависимости цены квартиры в городе Смоленске от факторов X3 — X8 в виде:

Y=a0+a1·X3+a2·X4+a3·X5+a4·X6+a5·X7+a6·X8 (2)

В результате получены результаты, представленные в таблице 1 «Результаты линейной модели»

Таблица 1. Результаты линейной модели

Параметр

Коэффициент a

Стандартная ошибка a

Значение t — критерия

Значение p

Свободный член

-1130512

150018

-7,536

0,000000

X3

30728

2122

14,478

0,000000

X4

119268

9266

12,870

0,000000

X5

145692

43109

3,380

0,000818

X6

198938

47676

4,173

0,000039

X7

142027

41547

3,418

0,000713

X8

161428

26481

6,096

0,000000

Таким образом, модель (2) принимает вид:

Y=-1130512+30728·X3+119268·X4+145692·X5+198938·X6+142027·X7+161428·X8 (3)

Коэффициент a, входящие в уравнение являются статистически значимыми, так как tтабл = 1,96< |tнабл | на уровне значимости 0,05.

Статистическая значимость модели (3) обусловлена высоким значением коэффициента множественной корреляции R=0,81 и тем, что значение критерия Фишера, равного в данной модели 100,933 больше табличного, равного 2,25 при соответствующем числе степеней свободы и уровне значимости 0,05. Так же следует отметить, что коэффициент детерминации R2=0,67, что означает описание уравнением (3) 67% изменения зависимой переменной Y.

При анализе остатков, полученных по модели (3) выявлена их нормальность. На рисунке 3 «Остатки» представлены график «на нормальной бумаге» и гистограмма нормального распределения.

Остатки
Рисунок 3. Остатки

Для определения величины вклада каждой переменной в изменение результирующей переменой, необходимо определить коэффициенты уравнение (2) для стандартизированных переменных X3 — X8 путём построения множественной линейной модели с этими переменными. В таблице 2 «Коэффициенты регрессионного уравнения» приведены значения коэффициентов регрессионной модели для стандартизированных переменных. Чем больше величина коэффициента, тем больше вклад соответствующей переменной на изменение результирующей.

Таблица 2. Коэффициенты регрессионного уравнения

Параметр

Коэффициент a

X3

0,482502

X4

0,466647

X5

0,116473

X6

0,149981

X7

0,114137

X8

0,206513

На зависимую переменную Y (стоимость квартиры в городе Смоленске) наибольшее влияние оказывают следующие переменные:

X3 — жилая площадь, м2;
X4 — площадь кухни, м2;
X8 — район города.

Положительное значение данных коэффициентов говорит о росте Y (стоимость квартиры в городе Смоленске) с увеличением X3, X4 , X8 .

Таким образом, уравнение зависимости стоимости квартиры в городе Смоленске от параметров X3 — X8 имеет вид:

Y=-1130512+30728·X3+119268·X4+145692·X5+198938·X6+142027·X7+161428·X8

Наибольшее влияние на стоимость квартиры оказывают показатели, характеризующие площадь и её местонахождении в городе. Наибольшую стоимость имеют квартиры, расположенные в Ленинском районе (это центральный исторический район города), а наименьшую — в Заднепровским (данный район достаточно удалён от центра города, крупных торговых центров и основных производств).

Список литературы

  1. Avito. Сайт объявлений №1 в России. [Электронный ресурс] URL: https://www.avito.ru Дата: 27.11.2011
  2. Курс социально-экономической статистики. Под редакцией М. Г. Назарова. - 6-е издание, исправленное и дополненное. - Сер. Высшее экономическое образование / М. Г. Назаров, В. В. Елизаров, Н. М. Калмыкова, и. др. — Омега-Л Москва, 2007. — С. 987.