Big Data: как применять и анализировать большие данные?
Big Data — это огромные, чаще всего неупорядоченные массивы информации, а также технологии работы с ними. Применение больших данных — одно из самых популярных направлений в IT. Это неудивительно: использование Big Data открывает новые возможности для бизнеса и помогает компаниям развиваться, предлагая клиентам персонифицированные сервисы и продукты. Рассказываем о технологиях анализа больших данных и о том, какую пользу они могут принести.
Содержание статьи:
Использование больших данных
У термина Big Data есть точная дата рождения — 3 сентября 2008 года, когда был выпущен специальный номер журнала Nature, посвященный влиянию огромных массивов информации на развитие науки [1]
. К началу 2010-х годов уже стало понятно, что аналитика больших данных актуальна для любой отрасли.Объемы информации росли экспоненциально, традиционные методы и инструменты перестали справляться с их обработкой. Причинами накопления колоссальных массивов данных стали развитие информационных технологий и рост вычислительных мощностей. Информация поступает огромными потоками из разных источников: из интернета (социальные сети, сайты, интернет-магазины, форумы, СМИ), с мобильных устройств, измерительных приборов, метеостанций, аудио- и видеорегистраторов, из корпоративных систем и так далее. И с каждым днем объемы данных продолжают увеличиваться. Для их хранения, обработки и анализа нужны специальные алгоритмы и программные средства. Они также входят в понятие Big Data.
Каковы основные свойства Big Data как информации?
Большими могут считаться данные, которым присущи три главные характеристики («три V»):
- Объем (Volume). Определение говорит само за себя: данных должно быть много. Потоки информации измеряются уже даже не терабайтами, а петабайтами и эксабайтами.
- Скорость (Velocity). Большие данные поступают из разных источников непрерывно, и этот процесс происходит очень быстро.
- Разнообразие (Variety). Big Data — это информация разных типов: текстовые и графические документы, аудио- и видеофайлы, логи. Она может быть совсем не упорядоченной или упорядоченной частично.
В последние годы, с ростом востребованности направления, к основополагающим «трем V» добавились еще два признака: достоверность (Veracity) и ценность (Value). С этим тоже все ясно: данные должны быть точными и приносить пользу бизнесу. Иногда выделяют еще жизнеспособность (Viability) .
Каковы преимущества использования Big Data?
Анализ больших данных помогает, к примеру, оптимизировать бизнес-процессы, увеличивать производительность, совершенствовать логистику, улучшать качество товаров и услуг, минимизировать риски, предсказывать тенденции рынка, глубже понимать поведение клиентов, их потребности и интересы, чтобы точнее попадать в целевую аудиторию. В производстве с его помощью можно повышать экологичность и энергоэффективность. Использование Big Data дает продавцам выгоду, а покупателям — удобство.
Первыми эти преимущества оценили телекоммуникационные компании, представители банковской отрасли и ретейла [2]
. Сегодня сфера применения Big Data значительно шире: технологии хранения и анализа больших данных востребованы не только в торговле, рекламе и индустрии развлечений, но и в сфере безопасности, медицине, сельском хозяйстве, промышленности, энергетике, науке, государственном управленииВот несколько примеров практического применения больших данных, актуальных для разных отраслей деятельности.
Внедрение инноваций
Пользуясь возможностями анализа Big Data, технологические компании создают интеллектуальные продукты и сервисы, способные решать принципиально новые задачи. Например, в США разработали платформу «вычислительной биологии», которая позволяет видеть взаимодействие химических веществ с сигнальными рецепторами клеток организма. С помощью инструментов Big Data, возможно, удастся произвести настоящую революцию в фармакологии: платформа поможет находить и создавать лекарственные препараты, способные точно попадать в цель, а значит, оптимально подходящие для лечения тех или иных заболеваний [3]
.Уже сегодня анализ больших данных используется для ускорения и повышения точности медицинских исследований. На одной из конференций уральских программистов DUMP были обнародованы данные о том, что использование Big Data в ходе цикличного медицинского тестирования выявило погрешность в 20% по сравнению с неавтоматизированными измерениями [4]
.В Европе, где метод анализа больших данных внедряется в сферу медицины более активно, была обнаружена связь определенных генетических факторов с заболеваемостью раком. В ходе этого исследования была проанализирована информация на 150 000 пациентов и выявлены факторы риска возникновения болезни [5]
.Изучение поведения клиентов
Большие данные активно используют маркетологи. Они анализируют историю покупок, поиска, посещений, лайков в соцсетях, чтобы на основании этого анализировать предпочтения пользователей и предлагать им только самое нужное. С Big Data реклама становится более адресной и эффективной.
Первооткрывателем сервиса рекомендаций на основе анализа пользовательских запросов стал знаменитый маркетплейс Amazon [6]
. Система предлагала товары, основываясь не только на истории покупок и анализе поведения клиентов; исследовались и внешние факторы — сезон, предстоящие праздники. В результате система рекомендаций стала приносить больше трети всех продаж [7] .Обеспечение безопасности транзакций
С помощью больших данных банки выслеживают мошенников и предупреждают кражи персональных данных. Путем анализа Big Data и машинного обучения создаются модели поведения добросовестных пользователей, и любое отклонение служит тревожным сигналом для службы безопасности [8]
.Так, «Сбербанк» еще в 2014 году внедрил систему сравнения фотографий клиентов, полученных с помощью веб-камеры, с изображениями из базы. Это обеспечило точность идентификации и помогло десятикратно уменьшить число случаев мошенничества [9]
.Совершенствование производственных процессов
Big Data помогает предотвращать простои оборудования и снижение производительности. Интеллектуальные системы собирают и анализируют данные с приборов мониторинга, средств измерения, логических контроллеров. Это позволяет следить за работоспособностью оборудования, предотвращать поломки, выявлять и исключать из процесса неэффективные операции, экономить материалы и энергию [10]
.Аэропорт «Пулково» в 2020 году внедрил интеллектуальную платформу по управлению предприятием, основанную на применении больших данных. Платформа позволила автоматизировать работу семи десятков служб компании и сделать управление аэропортом более прозрачным и эффективным. Появилась возможность в оперативном режиме получать полные данные по любым текущим процессам, а это ведет к повышению качества работы предприятия. Кроме того, внедрение платформы упрощает сотрудничество аэропорта с авиакомпаниями, позволяет оптимизировать планирование ресурсов, в частности, при выполнении техобслуживания и ремонта терминалов. По прогнозам, применение «умного сервиса» на 10% улучшит техническое состояние оборудования и оборачиваемость запасов, а уровень сервиса по поставкам — на 20% [11]
.Прогнозирование
С помощью больших данных можно строить модели, выявлять закономерности и предсказывать, как люди или процессы поведут себя в будущем. Прогнозная аналитика на основе Big Data помогает, например, планировать успех рекламных кампаний, предугадывать спрос на товары и услуги, выстраивать эффективные схемы взаимодействия с клиентами. Прогнозные модели могут служить для определения трендов не только в торговле и маркетинге, но и в любой другой отрасли. К примеру, в образовании они используются для того, чтобы делать предположения о будущей успеваемости учеников, об эффективности программ.
Прогнозная аналитика уже сейчас широко используется в авиации. Так, в компании Airbus рассчитывают, что с помощью предиктивного обслуживания к 2025 году удастся минимизировать количество ситуаций, когда самолет не был допущен к полету из-за выявленной неисправности. А компания Lufthansa Technik уже сейчас внедряет платформу, которая прогнозирует сроки замены деталей [12]
.Немного статистики
Консалтинговая компания Accenture в 2014 году провела исследование, в ходе которого были опрошены руководители 1000 компаний из разных стран мира. 60% из них на тот момент уже успешно внедрили системы анализа больших данных и были довольны результатами. В числе основных преимуществ Big Data участники опроса назвали создание новых продуктов и услуг, увеличение количества способов получения дохода, улучшение клиентского опыта, повышение лояльности клиентов [13]
.Методы анализа
Хранение данных
Большие данные не принесут пользы, если будут лежать мертвым грузом: всеми этими огромными, ежесекундно обновляющимися массивами разнородной информации необходимо управлять. Работа с Big Data строится в несколько этапов. Сначала данные нужно собрать из разных источников. Далее следует обеспечить их хранение, обработку и защиту от потери . Сейчас в этой связи приобретают особую актуальность облачные решения, которые обладают рядом преимуществ по сравнению с собственными вычислительными ресурсами.
Большие данные имеют свойство непрерывно накапливаться, а собственную IT-инфраструктуру при всех возможностях масштабирования не получится наращивать до бесконечности. К тому же нагрузки не всегда предсказуемы и в пиковые моменты физический сервер может выйти из строя. Перестраховка же несет неоправданные расходы. Перенос инфраструктуры в облако позволяет отказаться от закупки дорогостоящего оборудования, затрат на поддержание его работоспособности и обеспечение безопасности. В силу возможности быстрого масштабирования и резервирования вычислительных ресурсов облачное хранилище способно вместить большие объемы информации, при этом обеспечивая надежность, отказоустойчивость и гибкую настройку.
Наконец, заключительный и основной этап работы с большими данными — их анализ . Именно благодаря ему Big Data начинает приносить реальную практическую пользу. Анализ позволяет отфильтровать лишнее и выделить все самое ценное для бизнеса.
Какие существуют методы анализа больших данных? Они разнообразны, и описать их все в пределах одной статьи невозможно, поэтому расскажем об основных.
Предварительная обработка данных
Метод приведения разнородных данных в общий вид, дополнения недостающего и отсеивания лишнего. Собственно, это подготовительный этап работы с Big Data, предшествующий анализу.
Data Mining
Название метода в переводе означает «добыча данных», и это вполне отражает его суть: из разнородного массива информации извлекают полезные закономерности. В рамках Data Mining решаются задачи по классификации, кластеризации (объединению объектов в группы в зависимости от степени сходства), анализу отклонений и другие.
Нейронные сети
Алгоритмы машинного обучения работают примерно так же, как человеческий мозг: анализируют входные данные и выдают нужный результат. Умные нейросети могут, например, распознавать лица на фотографии или по ряду признаков определять недобросовестные транзакции.
Прогностический анализ
С помощью этого метода предсказывают разнообразные события: поведение клиентов, рост продаж, финансовые показатели компании, курсы валют, сроки доставки товаров, поломки оборудования и т. д. Для прогнозирования будущего используются ретроспективные данные и выявляются параметры, влияющие на результат.
Статистический анализ
Благодаря Big Data статистика становится намного более точной: чем представительнее выборка, тем корректнее результат.
Визуализация
Представление данных в удобном для использования формате: в виде графиков, карт, схем, диаграмм, гистограмм. Обычно это заключительный этап анализа, когда нужно показать пользователю результат.
В пределах каждого метода используются специальные инструменты Big Data.
Количество окружающей нас информации ежесекундно растет стремительными темпами: за 2020 год пользователи сгенерировали почти 60 зеттабайт (то есть около 60 × 10 21 байт) данных, а к 2025 году их, по подсчетам, станет в три раза больше [14]
. Анализ Big Data — перспективное технологическое направление, и крупные компании вкладывают в него немалые деньги. Большие данные актуальны и для бизнеса, и для науки, и для сферы государственного управления.