Виктор Майер-Шенбергер — Большие данные
Книжка классная, но сначала небольшой офф-топ.
Тесты английского и биг дата
В конце апреля 2016 года я прошел онлайн два теста по английскому. Результаты к сожалению до уровня Advanced так и не дотягивают.
Однако мне в голову запала совсем другая мысль.
При прохождении того или иного теста я могу буквально «почувствовать» правильный ответ, хотя часто совершенного не могу сформулировать грамматическое правило, которое за ним стоит.
После прочтения данной книжки я примерно стал понимать в чем дело.
Как работают онлайн-переводчики
Как мог бы подумать непросвещенный обыватель — методом подстановки. «To go» — это идти, «a coffee shop» — магазин кофе. «I go to the local coffee shop every morning» — Каждое утро я захожу в местный кофе-магазинчик. На простых текстах такие подстрочники еще могут сработать. Но более сложные тексты с кучей исключений, фразеологизмов, идиом и оборотов превратят ваш текст как минимум в забавный шарж, а как максимум в головную боль.
Гугл использует большие данные и корреляции. Перевод который мы видим в браузере — это просто математическая вероятность, рассчитанная по сложным алгоритмам по всем доступным источникам.
Хотя сам Гугл не без косяков. Где нужна простая подстановка он умничает. Вот, например, что он выдает на фразу им же самим придуманную в Google Analytics вместо «отчета по максимальным изменениям».
Основная идеи книги
Раньше использовался метод выборки. Из совокупности делалась выборка, затем она изучалась. Результаты экстраполировались на всю совокупность. Это экономило кучу денег и времени. Но есть один нюанс. Выборки работают в мире причинно-следственных связей экспериментатора. У него есть какая-то идея, он делает выборку, изучает. Результат нет или да (подтвердились ли предположения или опроверглись).
Теперь когда мир «оцифровывался» и данных стало в разы больше можно видеть взаимосвязи с помощью корреляций. Корреляции не сообщают причин. Мы просто видим что изменение параметра A ведет к изменению параметра B.
Например, в сети магазинов Walmart заметили следующую закономерность:
Перед ураганом росли объемы продаж не только фонариков, но и печенья PopTarts, а также сладких сухих американских завтраков. Поэтому, как только надвигалась буря, в магазинах Walmart поближе к витрине выкладывались коробки Pop-Tarts и припасы на случай урагана для удобства клиентов, снующих снаружи и внутри магазина, и, разумеется, для увеличения продаж.
Так что же по поводу тестов и прочего
Я могу не знать наизусть всю английскую грамматику, но прочитав уйму книг, просмотрев гигабайты фильмов и сериалов, поиграв тысячи человеко/часов в игрушки «в оригинале» я могу интуитивно корреляционно найти ответ из своих больший данных.
Но лучше всего этот момент раскрывается в книжке Джошуа Фоера «Энштейн шагает по Луне». Это одна из моих любимых книг, о ней потом отдельным постом.
Фоер приводит пример трех профессий (ссылки на фрагменты в Google Docs):
Затем делает следующие выводы:
Все специалисты своего дела используют память, чтобы смотреть на мир иными глазами. За долгие годы они создают хранилище собственного опыта, базу данных, которая накладывает отпечаток на то, как они воспринимают новую информацию. Опытный офицер спецназа видит не просто мужчину, направляющегося к школе: он видит нервное подергивание его рук, которое вызывает в памяти дюжины других таких же подергиваний, увиденных им за долгие годы службы. Он видит подозреваемого в контексте всех остальных случаев с подозрительными людьми, с которыми он когда-либо сталкивался. Он воспринимает происходящее в свете прошлых подобных ситуаций.
Когда выпускник школы «Дзен-Ниппон» смотрит цыпленку под хвост, тщательно отработанные навыки позволяют определителю пола быстро и автоматически собрать всю хранящуюся в памяти информацию о цыплячьей анатомии, и, прежде чем осознанная мысль успеет сформироваться в голове, определитель пола уже будет знать, девочка ли цыпленок или мальчик.
Эксперимент с шахматами открыл правду о памяти и о профессиональном опыте в целом: мы не помним разрозненные факты, мы помним вещи в контексте. Доска со случайно расположенными на ней фигурами не имела никакого контекста — не было похожих досок, чтобы сравнить их, предыдущих игр, о которых она бы напоминала, никаких способов придать ей смысл. Даже для лучших шахматистов она была, по сути, пустым звуком.
Слишком часто мы говорим о нашей памяти как о банке, куда мы помещаем новую информацию, когда она к нам поступает, и откуда извлекаем старую информацию, когда она нам нужна. Но эта метафора не отражает того, как по-настоящему работает наша память.
Наши воспоминания всегда с нами, меняя нас и меняясь благодаря информации, в бесконечном цикле поступающей к нашим органам чувств. Все, что мы видим, слышим и чувствуем, воспринимается нами в свете того, что мы видели, слышали и чувствовали в прошлом.