«Большие данные» — технология, предлагающая поискать жемчужные зёрна в кучах мусора, тем самым опровергая один из основных принципов информатики: мусор на входе — мусор на выходе. С мусором на входе всё в порядке: источники данных для анализа предлагаются довольно экзотичные, а главное — очень большие. Казалось бы, чем больше данных, тем точнее будет анализ. Однако на практике многие сценарии хороши только в специально подготовленных кейсах вендоров. В определённых условиях это работает: предлагая свой кейс студентам программ MBA, разработчики аналитических продуктов приучают бизнес к мысли о том, что без «больших данных» уже не обойтись. Прежде чем ввязываться в проекты с Big Data, многим компаниям стоит разобраться с традиционными средствами бизнес-анализа. Какие задачи невозможно решить с их помощью? Используется ли в компании потенциал уже имеющихся аналитических решений? И есть ли в ней задачи, для которых требуются «большие данные»? Имеются ли специалисты, способные ставить и решать такие задачи? Программистов и маркетологов не предлагать.
Даже такой гигант, как Facebook, редко имеет дело с «большими данными». В Facebook охотно рассказывают про петабайтные хранилища данных, но все понимают, что речь идёт не о едином большом хранилище, а о кластерах, в некоторых случаях даже о географически распределённых. В действительности данные, хранящиеся на каждом компьютере, не настолько «большие», чтобы их нельзя было обработать на обычном ПК. Объём данных, обрабатываемых в кластерах, находится в диапазоне от одного мегабайта до нескольких гигабайтов. С обработкой таких задач справится современный компьютер, ноутбук, планшет или даже игровые приставки. Классической проблемой Big Data является необходимость разбиения задачи на множество мелких частей и обработки каждой из них на большом массиве компьютеров: именно на этом построена вся технология Hadoop и лежащая в её основе концепция MapReduce. Идея в том, что вычисление многих задач можно ускорить в тысячу раз, если разбить их на тысячу подзадач, которые обсчитываются параллельно на тысяче компьютеров. К сожалению, существует множество задач, для которых использование кластеров относительно неэффективно или просто неуместно. MapReduce не работает в задачах, результаты которых зависят от предыдущих вычислений, не очень хорошо подходит для построения полнотекстовых индексов, при обработке случайных данных и т. п.
Термин «большие данные» становится синонимом анализа данных. Как часто бывает в мире ИТ, модный технологический термин быстро обрастает маркетинговым содержанием. Так, сегодня облаками называют всё что угодно, полностью забыв об изначальном технологическом содержании термина cloud computing. То же самое происходит и с «большими данными». К старому понятию «анализ данных» маркетологи повсеместно добавляют слово «больших». Да, на современных вычислительных мощностях действительно можно обрабатывать огромные массивы информации. Вот только излишнее увлечение «большими данными» для многих компаний превращается в дорогое, но бесполезное удовольствие. Данные, которые необходимы большинству компаний, «маленькие». Средств, предлагаемых Microsoft Excel для их обработки, более чем достаточно.
Большие данные — это дорогое, но бесполезное удовольствие. Чем больше, тем лучше? Вряд ли. При статистическом анализе, начиная с какого-то момента, увеличение объёма выборки не даёт существенного улучшения результатов. Если вы ищете корреляцию между X и Y, дополнительные данные могут только помешать. Классический пример: «99% людей, которые ели огурцы 100 лет назад, умерли». Количество полезной информации, которую можно извлечь из любых «больших данных» асимптотически уменьшается по мере увеличения их объёма. Начиная с определённого объёма, поиск новых данных становится бесполезной тратой времени. Кроме того, это приводит к увеличению числа «ложных корреляций». А значит, выявленную связь нельзя использовать для прогностического моделирования.
Иногда «большие данные» не помогают, а вводят в заблуждение. Компаниям, начинающим использовать «большие данные», приходится углубляться в их статистику и качество. Здесь свои подводные камни: погрешности сбора, отсутствие контекста, пробелы в данных, артефакты обработки и общие когнитивные отклонения. В итоге можно увидеть закономерность там, где её нет. Для работы с «большими данными» недостаточно одного ИТ-специалиста, тут нужен статистик с немалым опытом. К сожалению, чаще всего аналитические инструменты оказываются довольно простыми в использовании. Средний «айтишник» с профильным образованием пару лет изучал статистику и матанализ в вузе, так что с терминологией, предлагаемой аналитическими средствами, он разобраться может, и подготовить красиво выглядящие отчёты у него тоже получится. Вот только навыки профессионального аналитика у него от этого не появятся, и то, что получится на выходе, с большой вероятностью можно сразу отправить в мусор.
Проблема в том, что «большие данные» часто объединяют различные по качеству источники информации, и выводы, сделанные в результате обработки, могут быть в корне неправильными. Недостоверные источники особенно часто возникают там, где данные в исходные базы вводились людьми. Например, в здравоохранении врачи могут использовать малопонятные аббревиатуры и сокращения, которые при дальнейшей обработке и оцифровке легко могут быть поняты неправильно. Впрочем, за надежность данных, поступающих с автоматических датчиков или из информационных систем, тоже не всегда можно поручиться. Даже там, где данные полностью достоверны, их анализ не всегда полезен. Например, на биржевых площадках накоплены действительно огромные массивы исторических данных по котировкам акций. Исторические модели отлично работают до тех пор, пока не происходит перелом тренда. Потом аналитики, конечно, построят правильную модель, но работать она будет в лучшем случае до следующего кризиса.
Нужны ли бизнесу данные? Конечно, да. Но стоит ли инвестировать именно в «большие данные»? Не думаю. Гораздо важнее их качество. И профессионализм специалистов, которые с ними работают.