Применение технологий бизнес-анализа к большим данным в системах нового типа

№58-3,

технические науки

В статье рассмотрены современные тенденции развития информационных систем в соответствии с технологиями обработки больших данных. Обработка больших данных тесно увязана с технологиями бизнес-анализа и развитием на их основе подходов к интеграции данных.

Похожие материалы

Большие данные (англ. Big Data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста информации [2, 7].

Согласно отчету McKinsey Institute, “Большие данные: новый рубеж для инноваций, конкуренции и производительности” ( Big data: The next frontier for innovation, competition and productivity), термин “большие данные” относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации [2].

“Большие данные” предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате, корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Кроме того, данные сейчас обновляются все чаще и чаще, поэтому традиционные методы анализа информации не дают необходимой скорости и качества обработки огромных объемов постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

Понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

Бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее [3, 4, 5]. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), и отличаются друг от друга по трем аспектам.

  1. Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  2. Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  3. Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Мировые репозитарии данных продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC “Исследование цифровой вселенной” ( Digital Universe Study), подготовку которого спонсировала компания EMC, констатировалось, что общий мировой объем созданных и реплицированных данных в 2011-м составит около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м [1].

К большим данным сегодня относят следующие категории данных.

  1. Данные сенсоров (датчиков).

Датчики используются для функции контроля все большим и большим количеством систем сегодня.

Одним из примеров является отслеживание чувствительных товаров, таких как фармацевтические, а также одежды, или запасных частей.

Метки радиочастотной идентификации (RFID) или двумерные штрих-коды, так называемые данные матрицы.

  1. Данные событий (в играх).
  2. Данные систем аэропортов и медицинских систем.
  3. Данные соцсетей.
  4. Данные облачных приложений.
  5. Данные мобильных операторов.
  6. Данные систем производства и распределения.
  7. Данные по использованию Wi-Fi в общественных зонах (аэропорт, супермаркет, вокзал и т. п.).

При разработке совершенно новой системы управления базами данных для корпоративных вычислений, возникает вопрос, есть ли необходимость в такой системе. Современные компании изменились. В настоящее время в компаниях больше данных управления, чем раньше. Например, в процессе производства гораздо большее количество данных генерируется датчиками конвейеров или производственных роботов. Кроме того, компании обрабатывают данные более широких масштабов, например, поведение конкурентов, ценовые тенденции, и т.д., для поддержки принятия управленческих решений. И объемы данных будет продолжать расти в будущем, что подтверждает необходимость разработки систем нового типа.

Технологии бизнес-анализа - одно из интереснейших современных направлений науки информатики, реализующееся в прикладном экономическом аспекте. Технологии бизнес-анализа объединили в себе несколько интеллектуальных направлений обработки и анализа данных, привнеся в них общий смысл.

Анализ данных — широкое понятие. Сегодня существуют десятки его определений. В самом общем смысле анализ данных — это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными [6].

Бизнес-аналитика или Business Intelligence (BI) - это совокупность технологий, программного обеспечения и практик, направленных на достижение целей бизнеса путём наилучшего использования имеющихся данных.

Именно поэтому, в отличие от других классов делового ПО, актуальность во внедрении BI-систем в трудные с экономической точки зрения времена не ослабевает, а только усиливается. Многообразие представленных на рынке решений, от мощных платформ бизнес-анализа до простых систем аналитики и отчетности, позволяет выбрать решение, доступное любой организации.

Развитие средств визуального представления данных, мобильных и облачных технологий сделали BI-инструменты массовыми всего за последние несколько лет.

Впервые термин Business Intelligence предложил американский ученый Ханс Петер Лун (1896-1964). Рождение BI датируется 1958 годом, когда Лун опубликовал в IBM System Journal статью «A Business Intelligence System». В ней он представил бизнес как набор различных видов деятельности в науке, технологиях, обороне, коммерции, индустрии и даже в законодательной сфере, а обеспечивающие его системы – системами, поддерживающими разумную деятельность (intelligence system).

Под intelligence Лун понимал способность устанавливать взаимосвязь между представлениями отдельных фактов с тем, чтобы действовать в интересах решения поставленных задач и намеченных целей.

В определении аналитиков Gartner конца 1980-х годов business intelligence — это «пользователецентрический процесс, который включает доступ и исследование информации, ее анализ, выработку интуиции и понимания, которые ведут к улучшенному и неформальному принятию решений».

Большинство определений трактуют «business intelligence» как процесс, технологии, методы и средства извлечения и представления знаний.

Определение, предложенное The Data Warehousing Institute: «Business Intelligence имеет отношение к процессу превращения данных в знания, а знаний в действия бизнеса для получения выгоды. Является деятельностью конечного пользователя, которую облегчают различные аналитические и групповые инструменты и приложения, а также инфраструктура хранилища данных».

Итак, бизнес-интеллект («Business Intelligence») в широком смысле слова определяет:

  • процесс превращения данных в информацию и знания о бизнесе для поддержки принятия улучшенных и неформальных решений;
  • информационные технологии (методы и средства) сбора данных, консолидации информации и обеспечения доступа бизнес-пользователей к знаниям;
  • знания о бизнесе, добытые в результате углубленного анализа детальных данных и консолидированной информации.

Данные, используемые для бизнес-анализа, организуются в специальные хранилища (data warehouse, DW). Эти данные должны отражать текущую, реальную и полную картину бизнеса. Информация в хранилище данных (включая исторические данные) собирается из различных операционных (транзакционных) систем и структурируется специальным образом для более эффективного анализа и обработки запросов (в обличие от обычных баз данных, где информация организована таким образом, чтобы оптимизировать время обработки текущих транзакций).

Хранилища данных содержат огромные объемы информации, охватывающей все доступные стороны деятельности предприятия и позволяющие рассматривать все аспекты функционирования бизнеса в совокупности. Для решения более узких, конкретных задач из общего хранилища могут вычленяться подмножества данных – так называемые витрины данных (data marts).

Ценность и достоверность знаний, полученных в результате интеллектуального анализа бизнес-данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.

Интеграция данных является начальным этапом реализации любой аналитической задачи или проекта. В основе интеграции лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами интеграции являются оценка качества данных и их обогащение.

Основные критерии оптимальности с точки зрения интеграции данных:

  • обеспечение высокой скорости доступа к данным;
  • компактность хранения;
  • автоматическая поддержка целостности структуры данных;
  • контроль непротиворечивости данных.

Ключевым понятием интеграции является источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат, в противном случае, очевидно, что объект не может считаться источником данных.

Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений.

Существует несколько подходов к интеграции данных.

Для формирования и поддержания хранилищ данных используются так называемые ETL-средства – инструменты для извлечения данных (extract), преобразования данных (transform), то есть приведения их к необходимому формату, обработки в соответствии с определенными правилами, комбинировании с другими данными и т.п., а также для загрузки данных (load), записи данных в хранилище или в другую базу.

В дополнение к ETL, BI-системы включают в себя инструменты для работы с SQL (structured query language), позволяющие пользователям напрямую обращаться к данным. В последнее время инструменты для формирования и обработки запросов стали более «дружественными», ориентированными на неподготовленных бизнес-пользователей (а не на квалифицированных ИТ-специалистов).

Для интеграции данных из разрозненных источников в современных BI-системах используется промежуточный, виртуальный слой метаданных, что позволяет избавить бизнес-пользователей от необходимости разбираться с тонкостями хранения и обработки информации и облегчающий внесение изменений. Эти средства не требуют никаких физических операций по перемещению и обработке данных, что отличает их от ETL-инструментов. Использование подобного слоя метаданных, в принципе, позволяет отказаться от организации дорогостоящих хранилищ данных (однако при этом необходимо принимать во внимание вопросы обеспечения необходимой производительности).

Кроме того, для интеграции данных могут создаваться корпоративные порталы, обеспечивающие взаимосвязь на уровне данных и бизнес-процессов. Такие порталы реализуют лишь внешнюю взаимосвязь, иначе говоря – обеспечивают совместный доступ к информации.

Список литературы

  1. Plattner, Hasso. In-Memory Data Management. The Inner Mechanics of In-Memory Databases / Hasso Plattner ; Hasso Plattner Institute, Potsdam, Brandenburg Germany // Springer. – 2013. – 298 р. ISBN 978-3-642-36523-2
  2. Вахрамеев, К. СУБД для анализа Больших Данных / К. Вахрамеев // Открытые системы. СУБД. – 2001. – № 10. – Режим доступа: osp.ru/os/2011/10/13012223. - 17.01.2017.
  3. Галлини, Н.И., Маковейчук, К.А. Проектирование информационной системы анализа и мониторинга показателей контингента обучающихся в организации высшего образования / Н.И. Галлини, К.А. Маковейчук // В сборнике: ПЕРСПЕКТИВЫ НАУКИ - 2015 Материалы I Международного заочного конкурса научно-исследовательских работ. Научно-образовательный центр «ЗНАНИЕ». Том 4 (Технические науки) / Научный ред. д.э.н., проф. А. В. Гумеров. – Казань: ООО «Рукета Союз», 2015. – 212 с. - ISBN 978-5-9907553-5-2 (т. 4). - С. 183 - 187.
  4. Галлини, Н.И., Филимоненкова, Т.Н. Информационно-справочная система Yaltavernadainfocenter / Н.И. Галлини, Т.Н. Филимоненкова // В сборнике: ПЕРСПЕКТИВЫ НАУКИ - 2015 Материалы I Международного заочного конкурса научно-исследовательских работ. Научно-образовательный центр «ЗНАНИЕ». Том 4 (Технические науки) / Научный ред. д.э.н., проф. А. В. Гумеров. – Казань: ООО «Рукета Союз», 2015. – 212 с. - ISBN 978-5-9907553-5-2 (т. 4). - С. 147 - 152.
  5. Маковейчук, К.А., Галлини, Н.И. Визуализация результатов и формирование отчетности учреждения высшего образования с помощью комплексной информационно-справочной системы анализа и мониторинга показателей контингента абитуриентов, обучающихся и преподавателей [Электронный ресурс] / К. А. Маковейчук, Н. И. Галлини. - Журнал "Постулат". - 2016. - № 3. - Режим доступа: e-postulat.ru/index.php/Postulat/article/view/61/64. - 17.01.2017.
  6. Паклин, Н. Б. Бизнес-аналитика: от данных к знаниям: учебное пособие / Н. Б. Паклин, В. И. Орешков. – 2-е изд., испр. – СПб: Питер, 2013. – 704 с.: ил. ISBN 978-5-459-00717-6
  7. Сухобоков, А. А. Влияние инструментария Big Data на развитие научных дисциплин, связанных с моделированием / А. А. Сухобоков, Д. С. Лахвич // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. – 2015. – № 3. – С. 207–240.