Программная среда R как часть методики по изучению статистики с применением информационных технологий

NovaInfo 132
Опубликовано
Раздел: Физико-математические науки
Просмотров за месяц: 29
CC BY-NC, УДК 519.254, ББК 22.172.3, ГРНТИ 83.77

Аннотация

В настоящее время для успешного применения статистических расчётов необходимо использовать программное обеспечение. В данной статье ставится задача выбора такой программы с учётом ряда объективных критериев. Проводится сравнение альтернативных программных продуктов, анализируются их достоинства и недостатки. Предлагается использование свободной версии пакета R для решения таких задач, и приводится пример его применения.

Ключевые слова

ВЫБОР, ВОЗМОЖНОСТИ ПРИКЛАДНЫХ ПАКЕТОВ, ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ, СТАТИСТИКА, ОБРАЗОВАНИЕ, СВОБОДНАЯ УСТАНОВКА

Текст научной работы

Практически во всех исследованиях в области естественных, технических, экономических и социальных наук применяются статистические методы. Статистический подход создаёт доказательную базу исследований при анализе результатов работы и в этом процессе уверенно занимает лидирующие позиции. Основы математической статистики изучаются практически во всех технических учебных заведениях, обычно занимая важное место в разделах математики. Цель, которая ставится перед данной дисциплиной — научить студентов корректному использованию методов математической статистики при анализе результатов работы в областях, связанных, например, с водным транспортом, таких как гидростроительство, наука о Земле, экономика на транспорте и т.д. Применение основ математической статистики и понимание сути дисциплины необходимы ещё и для того, чтобы студенты могли лучше разбираться в статистических аспектах, которые освещаются в передовых научных изданиях.

Математическая статистика как учебная дисциплина даёт развитие теоретическому мышлению, помогает анализировать полученные знания с целью их дальнейшего практического применения, развивает логическое мышление.

При преподавании данной дисциплины необходимо учитывать специфику учебного заведения, а также место дисциплины в учебном плане. В некоторых случаях на момент изучения курса у студентов ещё нет существенной предварительной математической подготовки, а необходимая база знаний приобретается позже, чем начинается освоение дисциплины. Изучение математической статистики после освоения таких разделов, как математический анализ, векторная алгебра, аналитическая геометрия, теория вероятностей, поможет лучше понимать её теоретические основы.

К сожалению, число аудиторных часов, отводимое на разделы дисциплины, связанные со статистикой, обычно невелико, и поэтому в процессе преподавания студентам предлагается только базовая теория и решение типовых задач статистической обработки данных для конкретной специальности [5].

Для углублённого изучения дисциплины и закрепления практических навыков, пригодных в дальнейшем в профессиональной деятельности, желательно использовать такое программное обеспечение, которое сделает более эффективным, удобным, быстрым выполнение статистических расчётов.

Нашей задачей служит определение пакета-помощника для использования его как для проведения практических занятий в компьютерном классе при преподавании курса теории вероятностей и математической статистики, так и для углублённого изучения этого раздела дисциплины.

Рассмотрим ряд объективных критериев для выбора такого пакета:

  1. Пакет должен включать набор вычислительных инструментов для решения большинства задач по теории вероятностей и статистике, а также, для наглядности результата, хорошую графику;
  2. Обязательно наличие доступной методической литературы по рассматриваемому пакету, обучение не должно быть сложным;
  3. Доступность свободной установки пакета обязательна. Для эффективной работы такая программа должна быть установлена не только в классе, но и у каждого обучающегося на его личном компьютере.

Что же обычно предлагается для использования в качестве такого пакета? Как правило, первые статистические расчёты делают в табличных процессорах, для этого чаще всего используют электронные таблицы MS Excel. Применение этой офисной программы допустимо в тех случаях, если необходимо выполнить простейшие операции, такие как сортировка данных, вычисление описательных статистик, построение некоторых видов графиков, а также просто для того, чтобы сохранить данные своего эксперимента. Статистическая обработка результатов исследования в полноценном виде в Excel невозможна, так как это приложение является офисным, а не научным. Кроме того, Microsoft Excel был отклонен из-за проприетарности и из-за некорректности реализации некоторых статистических процедур. Об этом можно прочитать, например, в книге А.А. Макарова и Ю.Н. Тюрина [4].

Также для статистических вычислений используется ещё один популярный на сегодняшний день табличный процессор Calc, он входит в состав бесплатного офисного пакета OpenOffice.org, но, как показывает практика, этот продукт не совсем удобен для работы.

Профессиональные статистические пакеты, конечно, предпочтительнее, но они имеют довольно высокую стоимость, чаще всего недоступную индивидуальному пользователю. В качестве примера можно привести наиболее часто используемый профессиональный статистический пакет SPSS Statistics [3]. Среди преимуществ пакета IBM SPSS Statistics выделим следующее:

  • Возможна удобная загрузка данных различных форматов (Excel, SAS, через OLE DB, через ODBC Direct Driver);
  • Наличие в пакете как командного языка, так и разветвленной системы меню для прямого доступа к различным процедурам статистического анализа;
  • Пакет содержит графические средства для наглядного представления результатов;
  • В пакете есть встроенный модуль Statistics Coach, предлагающий интерактивным образом адекватный метод анализа.

Отметим, что кроме перечисленных достоинств этот пакет обладает некоторыми недостатками:

  • Осуществляется поддержка только 32-разрядных операционных систем Linux, хотя Windows поддерживаются как 32-разрядные, так и 64-разрядные;
  • Базовый пакет является платным для всех категорий, даже для студентов;
  • Для получения модулей, содержащих специальные процедуры необходима дополнительная оплата.

В интересах доступности возрастает спрос на свободно распространяемое программное обеспечение (СПО). Примерами таких программ для статистической обработки данных служат: среда R, RapidMiner, WEKA, Dataplot, StatistX, Gretl и другие. Есть и свободно распространяемые аналоги универсальных математических пакетов с хорошими возможностями анализа данных, пригодных для научных и студенческих исследований с небольшими объемами выборок — Maxima, GeoGebra.

В качестве альтернативы профессиональным статистическим пакетам типа SPSS Statistics рассмотрим свободную среду статистического анализа R [1].

Эту систему начинали разрабатывать Роберт Джентльмен и Росс Ихак на факультете статистики университета Мельбурна в 1995 году. Название системы определили первые буквы имен авторов. В дальнейшем к развитию и расширению этой системы подключились ведущие специалисты-статистики.

Достоинствами системы R являются:

  • Наличие установочного пакета под Windows (работает как на 32-х, так и на 64-х разрядной операционной системе);
  • Возможность установки в Linux;
  • Распространение программы под GNU Public License;
  • Доступность исходных текстов и бинарных модулей в обширной сети ресурсов в CRAN (The Comprehensive R Archive Network);
  • Наличие собственного языка программирования статистических процедур R, фактически ставшим стандартом. Кроме того, он полностью поддерживается новой системой IBM SPSS Statistics Developer;
  • Язык системы R является расширением языка S, разработанным в Bell Labs, в настоящее время составляющим основу коммерческой системы S-PLUS. Большинство программ, написанных для S-PLUS, может легко быть исполнено в среде R;
  • В системе есть возможность обмена данным с электронными таблицами;
  • Для целей документирования можно сохранять всю историю вычислений.

Вдобавок к перечисленным достоинствам пользователи системы отмечают следующее:

  • В среде есть очень много бесплатных пакетов с открытым исходным кодом для статистики, аналитики и графики;
  • Есть доступ к различным научным трудам, а также возможность их применение в R;
  • R стал принятым стандартом для использования во многих мировых университетах с перспективой дальнейшего роста и развития;
  • У пакета R есть широкие возможности интеграции с другими языками;
  • Язык пакета вполне доступен для изучения.

Среда статистического анализа R была создана на базе языка программирования S, история которого началась в 1976 году, когда появилась его первая рабочая версия. Именно поэтому у них очень много общего. В пакете R предусмотрены широкие возможности для статистической обработки данных, а также работы с графикой, хотя нужно отметить, что графический интерфейс для R инструментально заметно уступает по сравнению с профессиональными статистическими пакетами [2]. А что касается языка S, то сегодня он является основой приложения S-PLUS, разработанного TIBCO Software Inc., и, в отличие от R, распространяется на коммерческой основе.

Пакет R легко устанавливается на любом компьютере с операционной системой Windows, MacOS или Linux. В системе R отсутствует встроенный табличный редактор, поэтому при её запуске анализируемую информацию можно либо загружать из внешних файлов, либо вводить в виде аргументов соответствующих функций непосредственно в командную строку. Первый вариант удобен в тех случаях, когда необходимо работать с таблицами данных, а второй при работе с единичными значениями. Данные таблиц можно создавать в любом табличном процессоре, а файлы сохранять в формате *.csv, такой формат данных используется в системе R.

В R реализовано огромное количество функций, они используются для обработки информации, которая была загружена в переменные. Важной особенностью работы в системе R является то, что все промежуточные данные при работе с этим языком, хранятся непосредственно в оперативной памяти, а не во временных файлах. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации, т.к. R будет использовать значительную часть оперативной памяти компьютера.

Синтаксис языка R достаточно прост и доступен для изучения. На сегодняшний день написано много учебных книг по самым разным направлениям использования среды статистических вычислений R. Кроме того, имеется большое число публикаций преподавателей-статистиков, использующих этот пакет в учебном процессе.

Для демонстрации практического использования пакета R приведем пример одного из статистических исследований в области климатологии, а именно анализа тенденций в канадской ледниковой массе. В приведённом исследовании были использованы данные сайта https://open.canada.ca/en/open-data.

Предложена следующая гипотеза: необходимо выяснить, есть ли статистически значимое изменение баланса массы ледников за наблюдаемый период времени. Для этих целей была использована среда R и соответствующий статистический тест, называемый t‑критерием.

Набор данных содержал 518 измерений баланса массы 6-ти канадских ледников, собранных с 1960 по 2007 год.

Доказательства гипотезы подтверждались с помощью таблицы результатов и демонстрационных диаграмм:

Таблица 1. Результаты измерений

Имя

Годы Наблюдения

Среднее изменение

Худшее изменение

Худший год

PValue

Confidence Limit

Северо-западная ледяная шапка Девона

47

-91,2

-559

2001 г.

5.81э-05

-39,0

Ледник Хелм

31

-1277,3

-2850

1998 г.

1.73э-07

-798,0

Ледяная шапка Мейгена

48

-107,6

-970

1962 г.

4.51e-03

-12,5

Ледник Пейто

42

-579,9

-2230

1998 г.

3.62e-07

-339,7

Место Ледник

43

-861,4

-2486

1995 г.

3.70e-09

-572,3

Белый ледник

48

-152,4

-818

2007 г.

6.56э-05

-64,3

Демонстрационные диаграммы исследования
Рисунок 1. Демонстрационные диаграммы исследования

Анализ, проведенный с помощью системы R, подтвердил факт таяния канадских ледников.

Таким образом, решение, позволяющее получать навыки исследовательской работы с использованием языка программирования R, может являться органичной частью методики построения образовательного процесса по изучению статистики с применением информационных технологий. Возможности языка R закрепляют практические навыки решения типовых задач, что соответствует практико-ориентированному подходу к обучению студентов непрофильным дисциплинам.

Если стоит задача изучения статистики, а особенно написание нестандартных процедур статистической обработки данных, то пакет R может помочь в решении таких задач.

Читайте также

Список литературы

  1. R Core Team. R: A Language and Environment for Statistical Computing [Electronic resource]. 2017. URL: https://www.r-project.org/about.html
  2. Functions for Tabular Reporting [Electronic resource]. URL: https://davidgohel.github.io/flextable
  3. Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей: Пер. с нем. — СПб.: ДиаСофтЮП, 2005. — 608 с.
  4. Макаров, А.А., Тюрин, Ю.Н. «Статистический анализ данных на компьютере» ИНФРА, Москва, 1998 г.,- 528 с.
  5. Орлов, А.И. Математика случая: Вероятность и статистика — основные факты: Учебное пособие. — М.: МЗ-Пресс, 2004. — 110 с.

Цитировать

Королькова, Л.А. Программная среда R как часть методики по изучению статистики с применением информационных технологий / Л.А. Королькова. — Текст : электронный // NovaInfo, 2022. — № 132. — URL: https://novainfo.ru/article/19165 (дата обращения: 23.05.2022).

Поделиться