26 марта 2013 года в Москве состоялась конференция "Big Data: возможность или необходимость". Мероприятие организовано агентством CNews Conferences. Эксперты назвали "большие данные" одной из ключевых технологий 2013 года, которая с 2014 года начнет играть роль локомотива ИКТ-отрасли.
Компания IDC приводит такие данные: ежегодно объемы хранимой информации вырастают на 40%, к 2015 году рынок технологий и сервисов для обработки больших данных составит 16,9 млрд долларов. В прошедшем году во всех странах мира было сгенерировано 2,43 Заттабайт данных. Это более чем вдвое превосходит тот объем информации в цифровом виде, который был создан в 2010 году (1,2 Зеттабайта). Такой итог, по мнению аналитиков, дает основание полагать, что сегмент Big Data должен вырасти почти на 50% к 2015 году - до 7 млрд долларов.
IDC прогнозирует, что сегмент Big Data будет расти примерно в семь раз быстрее, чем ИКТ рынок в целом. К 2015 году его мировой объем достигнет 16,9 млрд долларов. Совокупный планируемый рост составит 39,4%.
Компания Gartner полагает, что к 2015 году большие данные позволят создать 4,4 млн рабочих мест. Хотя на этот счет имеется диаметрально противоположное мнение. По словам Александра Шмида, председателя правления EC-лизинг, количество рабочих мест сократится, так как многие рутинные операции будут выполнять компьютеры и роботы, оснащенные системой искусственного интеллекта. "Уже сейчас знаменитый IBM Watson способен принимать решения быстрее и лучше, чем люди", - отметил Александр Шмид. Многие любят вспоминать, как эта машина обыграла в шахматы Гарри Каспарова. Однако справедливости ради стоит заметить, что шахматную партию Каспаров играл вовсе не с компьютером, а с другим человеком - программистом (или группой программистов), который разрабатывал алгоритмы работы Watson и создавал сложное программное обеспечение для установки на этот супермощный компьютер.
Александр Шмид подчеркнул, что в связи с необходимостью обработки огромного количества данных произошло изменение парадигмы работы с данными: "запоминание - обработка" меняется на "обработка - запоминание". То есть данные не нужно сначала запоминать, а затем обрабатывать - это требует весьма емких дисковых массивов. Сейчас разработана технология, при которой данные в реальном времени фильтруются, и обрабатываются лишь те, что необходимы. Аналитика становится "умной".
Технологии Big Data сделали возможным анализ всех доступных данных, поэтому сегодня Big Data стала "горячей темой".
К слову о Big Data: около двух лет назад футуролог Рэй Курцвейл сказал, для того, чтобы ускорить появление искусственного интеллекта, нужны данные о каждом из двух миллиардов Интернет-пользователей. В прошлом году Рэй Курцвейл перешел на работу в Google и возглавил проект "в области машинного обучения и обработки естественного языка". Он также курирует проект Knowledge Graph, на основе которого будет разрабатываться система искусственного интеллекта Google. Для этого проекта создана база из 700 миллионов смысловых конструкций и миллиардов связей между ними.
Участники конференции в своих выступлениях говорили о том, что одной из первых платформ технологии Big Data Analysis стала Hadoop, созданная для работы с неструктурированными и слабо структурированными данными. Директор направления Большие Данные EMC Россия и СНГ Сергей Золотарев отметил, что в России интерес к Hadoop только еще наметился. Тем более, что хранение информации с использованием данной технологии оказывается в сто раз дешевле, чем в традиционных СХД. Между тем, более 90% всей информации неструктурированы, ее невозможно проанализировать с помощью традиционных ИТ-инструментов. Замечено, что объем неструктурированных данных растет гораздо быстрее, чем структурированных. По словам Сергея Золотарева, для разных типов данных уже сейчас предлагаются разные инструменты для обработки и анализа. В частности, EMC предлагает Greenplum - интегрированную аналитическую платформу, ускоряющую анализ ресурсов больших данных в едином интегрированном устройстве.
Вадим Табаков, менеджер по развитию направления Database&Technology, SAP, рассказал о решении SAP HANA, которая сочетает функции обработки транзакционных данных и аналитики с технологиями вычислений в оперативной памяти. "SAP HANA устраняет ограничения традиционной архитектуры баз данных, не позволяющие использовать приложения для ведения бизнеса в реальном времени", - пояснил Вадим Табаков.
Решения, использующие технологию Big Data, предлагают сегодня компании Oracle, Cisco, IBM, HP и другие. Проектов в этой области в России - единицы. Технический директор DIS Group Олег Гиацинтов рассказал об опыте использования платформы Hadoop в проекте для "ВымпелКома". Задача состояла в том, чтобы оптимизировать подготовку данных для отчетов компании по продажам. Тестирование решения продемонстрировало, что оно вполне работоспособно, причем в качестве аппаратной составляющей использовалась рабочая станция вместо сервера.
В октябре 2012 года оператор "Скартел" внедрил платформу по анализу и обработке Big Data - Vertica СУБД. Параллельная архитектура решения обеспечивает в сто раз более высокую скорость загрузки данных, чем ранее, а скорость доступа к нужной информации и построения отчета выросла в десять раз по сравнению с предыдущим хранилищем данных.
Аналитики CNews Analytics полагают, что в России основным потребителем Big Data может стать государство. Еще одна возможная сфера применения технологии - "облачные" решения, разворачиваемые для большого количества клиентов. В аналитическом бюллетене CNews Analytics приводится мнение исследовательской компании Juniper Research: уже в текущем году большие данные станут большим бизнесом на мировом рынке.