12-09-2015

"Big Data" не существуют

Слэйтер Викторофф делится своим опытом работы с компаниями в сфере больших массивов данных...

Мои клиенты постоянно лгут мне. Они точно говорят о том, сколько могут себе позволить, как много или мало им требуется услуг и как быстро они смогут всё это оплатить. Но они врут о том, сколько они имеют информации.

Сначала, я думал, что это разовый случай. Один клиент заявил нам, что им требуется обрабатывать несколько миллиардов звонков каждый месяц, так вот у них «массивный поток данных». Это серьёзный анализ с серьёзным ценником. Но однажды мне открылась правда: они надеялись достичь показателя в один миллион звонков в день в следующие несколько месяцев. Даже если им удалось достичь этой оптимистичной цели, то всё равно этот показатель лишь одна сотая, от изначально заявленной цифры. И так со всеми клиентами. Как правило компании завышают реальные объёмы имеющихся данных в тысячу раз.

“Большие данные” не такие уж и большие

Компании хвастаются размерами своих баз данных, как рыбаки хвастаются размером пойманных рыб. Они утверждают о наличии бесконечных террабайтов информации. Преимущество кажется очевидным - чем больше ты знаешь, тем лучше.
Опираясь на свои маркетинговых исследования, компании чувствуют себя практически ясновидящими.
Они уверенны в полной осведомленности о деятельности как их работников, так и клиентов. Чем больше информации, тем яснее как люди принимают решения, что люди покупают и что их мотивирует - верно? Но маркетологи преувеличивают, как и рыбаки. Большинство компаний имеют лишь частицу той информации, о которой они заявляют. И, как правило, лишь маленькая частица от этой частицы является полезной для каких-либо не тривиальных выводов.

Большая часть “Big Data” в действительности бесполезна

Почему компании преувеличивают размеры своих массивов данных? Потому что они хотят чувствовать себя крупными игроками. Они слышали про гигантские объёмы собранной информации такими монстрами, как Amazon, Facebook и Google. И даже если они не имеют намерения достичь таких же объёмов или потратить на это столько же денег, они хотят быть в тренде. Но даже крупные компании используют лишь мизерную часть от собранных ими массивов.

Твиттер обрабатывает около 8 террабайтов данных в день. Это звучит пугающе для маленькой компании, пытающейся извлечь фидбек из твитов клиентов.
Но сколько фактической информации содержат твиты? Пользователи Твиттера генерируют около 500 миллионов твитов каждый день, а средняя длина твита равна 60 символам. Если провести несложные расчеты, то это всего лишь 30 гигабайтов реального контента в день - 0.5% от восьми террабайтов.

Еще один пример. Википедия одна из крупнейших хранилищ текстовой информации в Интернете, но всю их текстовую информацию можно уместить на одном USB-накопителе. Всю музыку мира можно сохранить на устройстве за 600$. Я могу продолжить, но основная мысль такова: Большие данные не большие, а хорошие данные еще меньше.

Выжимаем максимум из маленького количества данных

Но если большинство массивов данных так бесполезны, зачем о них вообще говорить? Потому что они бесполезны не для всех. Алгоритмы глубокого анализа способны отделить сигнал от информационного шума, обнаруживая закономерности, на нахождение которых у профессионалов уходят месяцы работы. Но эти модели работают только с огромными массивами маркированных данных. А маркировка большой базы данных стоит сотни тысяч долларов и нескольких месяцев времени. Это работа для таких гигантов, как Facebook или Google. Слишком много маленьких компаний не понимают этого и приобретают базы данных, которые они не в состоянии обслуживать.

У этих компаний есть вариант лучше. Они могут получить намного большую отдачу от данных, которые у них уже есть.

Правда, большинству алгоритмов глубокого обучения необходимы огромные базы данных. Но их можно запрограммировать на обработку маленьких баз данных, которой занимаются люди. Используя передаточное обучение, мы можем натренировать алгоритм на больших данных, прежде чем отправлять работать с маленькими. Это делает обучение в от 100 до 1000 раз более эффективным.

Вот всего несколько примеров того, как стартапы начали использовать transfer learning в бизнесе:

Платформа GraphLab Create от Dato может использоваться, чтобы идентифицировать и классифицировать огромное количество изображений за доли секунды. Пользователи могут применять существующие функции из предыдущих алгоритмов глубокого обучения — или запрограммировать свою собственную модель на базе данных, вроде ImageNet.

В интерфейсе Clarifai, распознающем изображения сервиса, изображения тегируются описательным текстом, что помогает быстро найти нужный фотоархив. Алгоритм глубокого обучения также работает для потокового видео, что позволяет рекламодателям вставлять рекламу, относящуюся к просмотренному пользователем контенту.

Платформа MetaMind’s AI может судить о том, положителен или отрицателен твит пользователя о бренде, а также определяет тему развернувшегося в твиттере обсуждения бренда. Для компании, которая изучает мнения своих потребителей, это гораздо полезнее, чем простой анализ данных о возрасте, поле и месте жительства многих тысяч клиентов.

Чтобы пользоваться этими сервисами, не нужно быть программистом. Blockspring позволяет выгружать данные из нескольких приложений в документ Excel, и для этого не надо написать ни одной строчки кода.

С учетом всех этих возможностей, больше нет смысла приобретать массив данных около терабайта. А в том, чтобы хвастаться этим, смысла и того меньше.

Очевидно, что у данных нет большого будущего. Оно очень даже маленькое.

Источник: Slater Victoroff

теги: big data, технологии

5 325

Подписывайтесь на наш Telegram: ninenet

Комментарии (0)

"Big Data" не существуют

“Большие данные” не такие уж и большие

Большая часть “Big Data” в действительности бесполезна

Выжимаем максимум из маленького количества данных

Наш сайт рекомендует:

Добавление комментария