Big Data: как применять и анализировать большие данные?

Big Data — это огромные, чаще всего неупорядоченные массивы информации, а также технологии работы с ними. Применение больших данных — одно из самых популярных направлений в IT. Это неудивительно: использование Big Data открывает новые возможности для бизнеса и помогает компаниям развиваться, предлагая клиентам персонифицированные сервисы и продукты. Рассказываем о технологиях анализа больших данных и о том, какую пользу они могут принести.

Использование больших данных

У термина Big Data есть точная дата рождения — 3 сентября 2008 года, когда был выпущен специальный номер журнала Nature, посвященный влиянию огромных массивов информации на развитие науки [1] https://www.tadviser.ru/ . К началу 2010-х годов уже стало понятно, что аналитика больших данных актуальна для любой отрасли.

Объемы информации росли экспоненциально, традиционные методы и инструменты перестали справляться с их обработкой. Причинами накопления колоссальных массивов данных стали развитие информационных технологий и рост вычислительных мощностей. Информация поступает огромными потоками из разных источников: из интернета (социальные сети, сайты, интернет-магазины, форумы, СМИ), с мобильных устройств, измерительных приборов, метеостанций, аудио- и видеорегистраторов, из корпоративных систем и так далее. И с каждым днем объемы данных продолжают увеличиваться. Для их хранения, обработки и анализа нужны специальные алгоритмы и программные средства. Они также входят в понятие Big Data.

Каковы основные свойства Big Data как информации?

Большими могут считаться данные, которым присущи три главные характеристики («три V»):

  • Объем (Volume). Определение говорит само за себя: данных должно быть много. Потоки информации измеряются уже даже не терабайтами, а петабайтами и эксабайтами.
  • Скорость (Velocity). Большие данные поступают из разных источников непрерывно, и этот процесс происходит очень быстро.
  • Разнообразие (Variety). Big Data — это информация разных типов: текстовые и графические документы, аудио- и видеофайлы, логи. Она может быть совсем не упорядоченной или упорядоченной частично.

В последние годы, с ростом востребованности направления, к основополагающим «трем V» добавились еще два признака: достоверность (Veracity) и ценность (Value). С этим тоже все ясно: данные должны быть точными и приносить пользу бизнесу. Иногда выделяют еще жизнеспособность (Viability) .

Каковы преимущества использования Big Data?

Анализ больших данных помогает, к примеру, оптимизировать бизнес-процессы, увеличивать производительность, совершенствовать логистику, улучшать качество товаров и услуг, минимизировать риски, предсказывать тенденции рынка, глубже понимать поведение клиентов, их потребности и интересы, чтобы точнее попадать в целевую аудиторию. В производстве с его помощью можно повышать экологичность и энергоэффективность. Использование Big Data дает продавцам выгоду, а покупателям — удобство.

Первыми эти преимущества оценили телекоммуникационные компании, представители банковской отрасли и ретейла [2] https://www.tadviser.ru/ . Сегодня сфера применения Big Data значительно шире: технологии хранения и анализа больших данных востребованы не только в торговле, рекламе и индустрии развлечений, но и в сфере безопасности, медицине, сельском хозяйстве, промышленности, энергетике, науке, государственном управлении

Сферы применения и источники больших данных

Вот несколько примеров практического применения больших данных, актуальных для разных отраслей деятельности.

Внедрение инноваций

Пользуясь возможностями анализа Big Data, технологические компании создают интеллектуальные продукты и сервисы, способные решать принципиально новые задачи. Например, в США разработали платформу «вычислительной биологии», которая позволяет видеть взаимодействие химических веществ с сигнальными рецепторами клеток организма. С помощью инструментов Big Data, возможно, удастся произвести настоящую революцию в фармакологии: платформа поможет находить и создавать лекарственные препараты, способные точно попадать в цель, а значит, оптимально подходящие для лечения тех или иных заболеваний [3] https://www.forbes.com/ .

Уже сегодня анализ больших данных используется для ускорения и повышения точности медицинских исследований. На одной из конференций уральских программистов DUMP были обнародованы данные о том, что использование Big Data в ходе цикличного медицинского тестирования выявило погрешность в 20% по сравнению с неавтоматизированными измерениями [4] Конференция программистов DUMP. .

В Европе, где метод анализа больших данных внедряется в сферу медицины более активно, была обнаружена связь определенных генетических факторов с заболеваемостью раком. В ходе этого исследования была проанализирована информация на 150 000 пациентов и выявлены факторы риска возникновения болезни [5] Карнаухов Н. С.., Ильюхин Р. Г. Возможности технологий Big Data в медицине. https://cyberleninka.ru/ .

Изучение поведения клиентов

Большие данные активно используют маркетологи. Они анализируют историю покупок, поиска, посещений, лайков в соцсетях, чтобы на основании этого анализировать предпочтения пользователей и предлагать им только самое нужное. С Big Data реклама становится более адресной и эффективной.

Первооткрывателем сервиса рекомендаций на основе анализа пользовательских запросов стал знаменитый маркетплейс Amazon [6] https://habr.com/ . Система предлагала товары, основываясь не только на истории покупок и анализе поведения клиентов; исследовались и внешние факторы — сезон, предстоящие праздники. В результате система рекомендаций стала приносить больше трети всех продаж [7] https://blog.skillfactory.ru/ .

Обеспечение безопасности транзакций

С помощью больших данных банки выслеживают мошенников и предупреждают кражи персональных данных. Путем анализа Big Data и машинного обучения создаются модели поведения добросовестных пользователей, и любое отклонение служит тревожным сигналом для службы безопасности [8] https://habr.com/ .

Так, «Сбербанк» еще в 2014 году внедрил систему сравнения фотографий клиентов, полученных с помощью веб-камеры, с изображениями из базы. Это обеспечило точность идентификации и помогло десятикратно уменьшить число случаев мошенничества [9] https://rb.ru/ .

Совершенствование производственных процессов

Big Data помогает предотвращать простои оборудования и снижение производительности. Интеллектуальные системы собирают и анализируют данные с приборов мониторинга, средств измерения, логических контроллеров. Это позволяет следить за работоспособностью оборудования, предотвращать поломки, выявлять и исключать из процесса неэффективные операции, экономить материалы и энергию [10] https://controleng.ru/ .

Аэропорт «Пулково» в 2020 году внедрил интеллектуальную платформу по управлению предприятием, основанную на применении больших данных. Платформа позволила автоматизировать работу семи десятков служб компании и сделать управление аэропортом более прозрачным и эффективным. Появилась возможность в оперативном режиме получать полные данные по любым текущим процессам, а это ведет к повышению качества работы предприятия. Кроме того, внедрение платформы упрощает сотрудничество аэропорта с авиакомпаниями, позволяет оптимизировать планирование ресурсов, в частности, при выполнении техобслуживания и ремонта терминалов. По прогнозам, применение «умного сервиса» на 10% улучшит техническое состояние оборудования и оборачиваемость запасов, а уровень сервиса по поставкам — на 20% [11] АНО «Радиочастотный спектр». https://rspectr.com/ .

Прогнозирование

С помощью больших данных можно строить модели, выявлять закономерности и предсказывать, как люди или процессы поведут себя в будущем. Прогнозная аналитика на основе Big Data помогает, например, планировать успех рекламных кампаний, предугадывать спрос на товары и услуги, выстраивать эффективные схемы взаимодействия с клиентами. Прогнозные модели могут служить для определения трендов не только в торговле и маркетинге, но и в любой другой отрасли. К примеру, в образовании они используются для того, чтобы делать предположения о будущей успеваемости учеников, об эффективности программ.

Прогнозная аналитика уже сейчас широко используется в авиации. Так, в компании Airbus рассчитывают, что с помощью предиктивного обслуживания к 2025 году удастся минимизировать количество ситуаций, когда самолет не был допущен к полету из-за выявленной неисправности. А компания Lufthansa Technik уже сейчас внедряет платформу, которая прогнозирует сроки замены деталей [12] http://www.ato.ru/ .

Немного статистики

Консалтинговая компания Accenture в 2014 году провела исследование, в ходе которого были опрошены руководители 1000 компаний из разных стран мира. 60% из них на тот момент уже успешно внедрили системы анализа больших данных и были довольны результатами. В числе основных преимуществ Big Data участники опроса назвали создание новых продуктов и услуг, увеличение количества способов получения дохода, улучшение клиентского опыта, повышение лояльности клиентов [13] https://www.tadviser.ru/ .

Базовый сценарий эффективности внедрения инструментов больших данных

Методы анализа

Хранение данных

Большие данные не принесут пользы, если будут лежать мертвым грузом: всеми этими огромными, ежесекундно обновляющимися массивами разнородной информации необходимо управлять. Работа с Big Data строится в несколько этапов. Сначала данные нужно собрать из разных источников. Далее следует обеспечить их хранение, обработку и защиту от потери . Сейчас в этой связи приобретают особую актуальность облачные решения, которые обладают рядом преимуществ по сравнению с собственными вычислительными ресурсами.

Большие данные имеют свойство непрерывно накапливаться, а собственную IT-инфраструктуру при всех возможностях масштабирования не получится наращивать до бесконечности. К тому же нагрузки не всегда предсказуемы и в пиковые моменты физический сервер может выйти из строя. Перестраховка же несет неоправданные расходы. Перенос инфраструктуры в облако позволяет отказаться от закупки дорогостоящего оборудования, затрат на поддержание его работоспособности и обеспечение безопасности. В силу возможности быстрого масштабирования и резервирования вычислительных ресурсов облачное хранилище способно вместить большие объемы информации, при этом обеспечивая надежность, отказоустойчивость и гибкую настройку.

Наконец, заключительный и основной этап работы с большими данными — их анализ . Именно благодаря ему Big Data начинает приносить реальную практическую пользу. Анализ позволяет отфильтровать лишнее и выделить все самое ценное для бизнеса.

Какие существуют методы анализа больших данных? Они разнообразны, и описать их все в пределах одной статьи невозможно, поэтому расскажем об основных.

Предварительная обработка данных

Метод приведения разнородных данных в общий вид, дополнения недостающего и отсеивания лишнего. Собственно, это подготовительный этап работы с Big Data, предшествующий анализу.

Data Mining

Название метода в переводе означает «добыча данных», и это вполне отражает его суть: из разнородного массива информации извлекают полезные закономерности. В рамках Data Mining решаются задачи по классификации, кластеризации (объединению объектов в группы в зависимости от степени сходства), анализу отклонений и другие.

Нейронные сети

Алгоритмы машинного обучения работают примерно так же, как человеческий мозг: анализируют входные данные и выдают нужный результат. Умные нейросети могут, например, распознавать лица на фотографии или по ряду признаков определять недобросовестные транзакции.

Прогностический анализ

С помощью этого метода предсказывают разнообразные события: поведение клиентов, рост продаж, финансовые показатели компании, курсы валют, сроки доставки товаров, поломки оборудования и т. д. Для прогнозирования будущего используются ретроспективные данные и выявляются параметры, влияющие на результат.

Статистический анализ

Благодаря Big Data статистика становится намного более точной: чем представительнее выборка, тем корректнее результат.

Визуализация

Представление данных в удобном для использования формате: в виде графиков, карт, схем, диаграмм, гистограмм. Обычно это заключительный этап анализа, когда нужно показать пользователю результат.


В пределах каждого метода используются специальные инструменты Big Data.

Количество окружающей нас информации ежесекундно растет стремительными темпами: за 2020 год пользователи сгенерировали почти 60 зеттабайт (то есть около 60 × 10 21 байт) данных, а к 2025 году их, по подсчетам, станет в три раза больше [14] https://meduza.io/ . Анализ Big Data — перспективное технологическое направление, и крупные компании вкладывают в него немалые деньги. Большие данные актуальны и для бизнеса, и для науки, и для сферы государственного управления.