29-04-2016

Как массивы данных создают в людях ложную уверенность

Если бы я начал утверждать, что американцы в последнее время стали более эгоистичны, вы приняли бы меня за брюзгу, ноющего о старых-добрых временах. Но что если я скажу, что могу подкрепить это утверждение анализом ста пятидесяти миллиардов слов текста? Несколько десятилетий назад доказательства такого масштаба были несбыточной мечтой. Однако сегодня объем данных в сто пятьдесят миллиардов пунктов — фактически, прошлый век. Волна лихорадочного продвижения анализа «массивов данных» прошлась по биологии, лингвистике, финансам и другим промежуточным областям знаний.

Несмотря на то, что ученые пока не могут договориться, как определять этот термин, суть заключается в том, чтобы найти настолько большие массивы данных, что в них можно обнаружить закономерности, невидимые при проведении традиционных исследований. Данные часто создаются с помощью миллионов действий реальных пользователей, — твитов или покупок по кредитной карте — и могут понадобиться тысячи компьютеров для сбора, хранения и анализа этих данных. Однако для многих компаний и исследователей подобное инвестирование стоит того, поскольку обнаруженные закономерности могут дать доступ к информации о чем угодно, начиная с генетических заболеваний и заканчивая завтрашним курсом акций.

Но возникает проблема: появляется заманчивая идея, что исследования, опирающиеся на такой невероятный объем данных, не могут ошибаться. А величина этих данных может наделить результаты ложным чувством достоверности. Возможно, многие из них вводят нас в заблуждение, поэтому мы должны приостановить практически все исследования, слепо доверяющие массивам данных.

В случае языка и культуры массивы данных обратили на себя внимание в 2011 году, когда Google выпустил свой Ngram Viewer. Анонсированный с фанфарами в журнале Science, Ngram Viewer позволял пользователям искать короткие фразы в базе сканированных книг от Google — около четырех процентов книг, опубликованных за все время! — и посмотреть, насколько изменилась частотность этих фраз с течением времени. Авторы статьи возвещали о появлении «культуромики», науки о культуре, основанной на огромном количестве данных, и с тех пор Ngram Viewer стал, по большей части, неиссякаемым источником развлечения, а также «золотой жилой» для лингвистов, психологов и социологов. Они изучали миллионы книг, чтобы, например, показать, что да, американцы становятся все более индивидуалистичны; что «с каждым годом мы забываем наше прошлое все быстрее»; и что нравственные идеалы исчезают из нашего культурного сознания.

МЫ ТЕРЯЕМ НАДЕЖДУ: Таблица в Ngram для слова «надежда» — одна из многих интригующих диаграмм, обнаруженных Рэнделом Манро, автором «xkcd» (веб-комикс о романтике, сарказме, математике и языке, публикующийся с 29 мая 2005 года и выходящий трижды в неделю — прим. Newочём). Если Ngram действительно отражает нашу культуру, возможно, мы идем к мраку

Проблемы начинаются с тем, как был создан корпус текстов для Ngram Viewer. В исследовании, опубликованном в октябре прошлого года, трое ученых из Вермонтского университета отметили, что обычно в Google Books находится одна копия каждой книги. Это совершенно логично для изначальной цели — подвергнуть содержание этих книг мощной поисковой технологии от Google. Однако с точки зрения социологического исследования, такой метод опасно искажает эти данные.

Например, некоторые книги оказываются ниже своего настоящего культурного значения: «Властелин колец» приравнивается к, скажем, «Охоте на ведьм в Баварии» (Witchcraft Persecutions in Bavaria). И наоборот, некоторые авторы приобретают большее значение, чем есть на самом деле. На основании данных по английской художественной литературе, например, вы можете сделать вывод, что на протяжении двадцати лет в 1900-х каждого персонажа и его брата звали Ланни. Но на самом деле, эти данные отражают то, как чрезвычайно плодовит (но необязательно популярен) был писатель Эптон Синклер: он наштамповал одиннадцать романов о Ланни Бадде.

КОГО ЗОВУТ ЛАННИ?: Диаграмма Ngram Viewer для слова «Ланни» и других наиболее популярных имен в английской художественной литературе

До сих пор наибольшую критику вызывает тот факт, что Ngram Viewer не является последовательным, хорошо сбалансированным срезом того, что было опубликовано. То же исследование из Вермонтского университета продемонстрировало, что среди прочих изменений в процентных составляющих всей литературы с 1960-х наблюдается выраженное увеличение количества научных статей. Из-за этого становится все сложнее поверить в то, что Ngram Viewer от Google точно отражает изменения культурной популярности слов с течением времени.

ПОПРОБУЙ РАЗБЕРИ: Частота слова «Figure» (график) с заглавной «F», используемого в основном в заголовках, резко увеличилась в XX веке. Такая тенденция предполагает, что с течением времени корпус текстов стал включать в себя все больше технической литературы. Может, это как-то и характеризует общество, но не то, как бо́льшая его часть употребляет слова

Даже если не обращать внимания на источники данных, все равно еще остается противоречивый вопрос интерпретации. Безусловно, популярность таких слов, как «благонадежность» (character) и «достоинство» (dignity) уменьшается. Но значит ли это, что люди стали меньше беспокоиться о морали? Не так быстро, — утверждает Тед Андервуд, английский профессор из Иллинойсского университета в Урбане-Шампейн. Он убежден, что в конце прошлого века понимание морали, скорее всего, сильно отличалось от нашего, и «достоинство» могло быть популярным словом по причинам, не связанным с моралью. Поэтому любые выводы, делаемые на основании проецирования нынешних логических связей на прошлые, выглядят подозрительно.

{ads}
Конечно, все это не ново для статистиков и лингвистов. Данные и их интерпретация — это для них хлеб насущный. Однако Ngram Viewer отличается тем, что пробуждает соблазн позволить огромному объему данных ослепить нас таким образом, что мы можем легко быть сбиты с толку.

Этот соблазн характерен не только для исследований с помощью Ngram Viewer; похожие ошибки подрывают всевозможные проекты по изучению массивов данных. Давайте, например, рассмотрим случай Google Flu Trends (GFT). Выпущенный в 2008 году, этот сервис подсчитывал слова вроде «жар» и «кашель» в миллионах поисковых запросах в Google, благодаря чему можно было определить, сколько людей на данный момент болеет гриппом. Используя эти подсчеты, работники службы здравоохранения могли принимать действия за две недели до того, как Центры по контролю и профилактике заболеваний были способны подсчитать точные цифры из отчетов врачей.

Изначально утверждалось, что GFT обладает точностью в 97 процентов. Но как заявляют в исследовании Северо-Восточного университета, эта цифра — обман. Во-первых, GFT совершенно не брал во внимание «свиной грипп», пандемия которого была весной и летом 2009 года. (Оказалось, что GFT, в основном, делал прогнозы для зимы.) Затем система начала завышать количество случаев гриппа. Собственно, она завысила статистику максимума 2013 года, выдав огромное число в 140 процентов. В итоге, Google просто удалил программу.

Так что же пошло не так? Как и в случае с Ngram, люди неосторожно отнеслись к источникам и интерпретации своих данных. Источник данных, поисковые запросы в Google, не статичны. Когда Google начал автозавершение запросов, пользователи стали просто принимать предлагаемые ключевые слова, искажая запросы, которые видел GFT. Со стороны интерпретации, инженеры GFT с самого начала позволили программе воспринимать данные за чистую монету; почти любое ключевое слово воспринималось как потенциальный индикатор гриппа. Учитывая то, что существовали миллионы ключевых слов, было практически гарантированно, что GFT посчитает сезонные слова вроде «снег» показателем гриппа.

Но когда массивы данных не воспринимают как панацею, их можно преобразовывать. Несколько групп, как, например, команда исследователя Джеффри Шеймана из Колумбийского университета, превзошли предсказания гриппа, как Центра по контролю и профилактике заболеваний, так и GFT, используя первый для компенсации погрешностей второго. Как утверждают в Центре по контролю и профилактике заболеваний, «команда Шеймана протестировала свою модель на реальном распространении гриппа в этом сезоне». Приняв во внимание непосредственное прошлое, Шейман со своей командой точно отрегулировали свою математическую модель для лучшего предсказания будущего. Все что для этого требуется — критически оценить свои предположения о своих данных.

Чтобы не прозвучать как человек, ненавидящий Google, хочу поскорее добавить, что эта компания далеко не единственный грешник. Моя жена-экономист раньше работала в фирме, которая по всему Интернету искала объявления о вакансиях и объединяла их в одну статистику для государственных кадровых агентств. Менеджеры компании кичились тем, что анализировали 80 процентов вакансий всей страны, но опять же, количество данных ослепило их настолько, что они неправильно эти данные интерпретировали. Например, местный Walmart может опубликовать одну вакансию продавца-консультанта, когда на самом деле, им нужно десять; или может не снимать объявление неделями после того, как найдет подходящего кандидата.

Поэтому вместо того, чтобы подчиняться «самоуверенности массивов данных», всем нам лучше бы держать наши скептические уши востро — даже когда кто-то приводит в доказательство миллиарды слов.

Автор: Джесси Даньец.
Оригинал: Nautilus.

Источник: Newочём

теги: big data

3 628

Подписывайтесь на наш Telegram: ninenet