Решения⁠, 04 июл 2017, 10:09

Большие проблемы больших данных

Фото: Reuters

Аналитика пользовательской информации облегчит жизнь компаниям, но может стать серьезным риском утечки персональных данных потребителей.

Еще десятилетие назад серверы IT-компаний редко хранили данные, полученные в результате поисковых запросов или любой другой деятельности пользователей на принадлежащих им сайтах. В наше время ситуация изменилась кардинально: не только IT-индустрия, но даже обычные интернет-магазины и многочисленные сервисы собирают и тщательно анализируют данные, поступающие с устройств пользователей. Возможности использования этой богатой информации (big data, или большие данные) весьма широки: она помогает предлагать пользователям именно те товары, которые им интересны, компаниям — увеличивать отдачу от рекламы, сокращать издержки за счет более грамотной организации производства и подбирать на работу наиболее ценных сотрудников. Эта информация настолько интересна компаниям, что сейчас формируется целый рынок исследований на ее основе. Но для самих потребителей большие данные не обязательно означают новые выгоды — порой они несут с собой новые риски.

Проблема выбора

Одно из главных направлений использования больших данных — персонализация предложений товаров. Авторы исследования, опубликованного Tibco Jaspersoft в 2015 году, подсчитали, что почти половина (48%) аналитики пользовательской информации, которую выполняют компании, служит для исследования поведения потребителей. «Сейчас потребитель тонет в огромном выборе товаров, — говорит эксперт по большим данным компании «1С-Битрикс» Александр Сербул. — Ему не хватает знаний о каждом конкретном товаре. Суть персонализации — облегчить покупателю выбор товара. Ну и, конечно, повысить продажи самого магазина». В основу алгоритмов обработки big data положена персональная последовательность получения информации, которую для каждого пользователя интернет-магазина можно рассчитать математически. Сервис персональных рекомендаций, встроенный в «1С-Битрикс», например, формирует облако интересов для каждого пользователя и генерирует рекомендации предложений, когда человек приходит на сайт конкретного магазина.

Подобранные под конкретного пользователя предложения незаметно для него подмешиваются в поисковую выдачу. Любопытно, что алгоритмы, позволяющие определить вкусы пользователя при выборе одежды, помогают вычислять даже такие, казалось бы, тонкие материи, как его художественные вкусы. Этим уже не первый год пользуются крупные видеосайты и онлайн-кинотеатры. «Вычислить, какие фильмы нравятся человеку, можно по жанру, актерам, стране производства и много чему еще. Машина знает, какие фильмы он уже посмотрел, и может рекомендовать такие, которые ему, скорее всего, понравятся», — говорит Александр Сербул.

Возможность понять интересы каждого пользователя — прямой путь к более качественной нативной рекламе. Большие данные помогают «исполнять желания» пользователей, фактически они уже стали основой для маркетинга любой компании. «С их помощью можно не только адаптировать контент в рекламе и на сайте, но идти дальше — менять сам продукт, делать каждое предложение уникальным. Пользователи перестанут переплачивать за ненужные им опции, станут лояльнее», — говорит руководитель отдела веб-аналитики performance-агентства Adventum Андрей Зайко. Анализируя предыдущие покупки пользователя и его поисковые запросы, интернет-магазины могут и оценивать его покупательную способность, не только подбирая под него конкретные предложения, но и позволяя компании менять собственную ценовую политику. Согласно подсчетам McKinsey, из всех связанных с ценообразованием решений, которые средняя компания принимает в течение года, около 30% являются ошибочными. «Тонкая настройка» в ценообразовании, которую позволяют осуществлять большие данные, дает бизнесу возможность существенно увеличить выручку.

Вкалывают роботы

Возможность обработки big data навсегда изменила мир бизнеса: обратная связь, которую производители будут получать от своих смартфонов, автомобилей, бытовой техники, позволит обнаруживать возможности для улучшения продукции точнее, чем любые, самые тщательные изучения рынка, считают авторы монографии «Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим» — профессор управления и регулирования интернета в Оксфордском университете Виктор Майер-Шенбергер и редактор раздела данных журнала The Economist Кеннет Кукьер.

«На заводах, в лабораториях или агропромышленных отраслях начинает набирать обороты использование технологических возможностей big data, — говорит веб-аналитик Agima Артем Кулбасов. — Их ценность будет крайне высокой как с точки зрения увеличения производственных мощностей за счет автоматизации и машинного обучения, так и с точки зрения закупки расходных материалов».

Обработка big data позволяет революционизировать даже такие консервативные области, как, например, рекрутинг, где человеческий фактор неизбежно играет главную роль. «Резюме соискателей и вакансии работодателей, а также все их истории изменений и взаимодействий друг с другом за много лет — это терабайты хорошо структурированной и пригодной для обработки информации, на которой мы обучаем свой искусственный интеллект, делая работу математических моделей точнее по мере появления новых данных», — рассказывает директор по развитию компании HeadHunter Борис Вольфсон. По его словам, таким образом удается, например, оптимизировать ранжирование откликов в кабинете работодателя на основе машинного обучения и рекомендации вакансий соискателям, а «умный» поиск учится понимать даже при неточном запросе, какую работу ищет человек. За счет автоматизации рекрутинговым компаниям удается добиваться большей эффективности подбора персонала, а заодно — высвободить время сотрудников, которое они могли потратить на более сложные задачи.

Чересчур прозрачно

В эпоху больших данных людям приходится прощаться с неприкосновенностью частной жизни: любой из нас превращается для корпораций в бактерию на предметном стекле, жизнь которой видна как под микроскопом. В 2014 году пять бывших сотрудников Uber рассказали, что работники компании отслеживают поездки пользователей сервиса без их ведома: с помощью доступного внутри компании «режима бога» следят за перемещениями бывших супругов и партнеров, знакомых и даже знаменитостей — таких как Бейонсе. Несмотря на скандал, который вызвали эти откровения, технической возможности проверить, имела ли в действительности место подобная слежка, у правоохранительных органов нет. А значит, никакое законодательное регулирование не позволит надежно отгородиться от компаний, решивших собирать информацию о конкретных людях.

Выгоды использования больших данных для потребителя не столь очевидны, как для компаний. Для бизнеса это поступление денег «из воздуха», сокращение расходов на маркетинг или прогноз спроса на новые продукты. Но если подойти с точки зрения клиента, то он просто видит очередную эсэмэску с предложением перейти на новый тарифный план или получает не очень аргументированный отказ банка, у которого хочет взять кредит. «Никто не может гарантировать, что big data — это что-то хорошее для клиента, мы можем лишь научить эту машину делать благие вещи. Например, можем уведомить авиапассажира о высокой цене страхового полиса, вычислив, что вероятность благополучно вернуться из страны, куда он летит, снизилась из-за назревшего там политического кризиса», — говорит Артем Кулбасов.

Риски, связанные с большими данными, имеют отношение не только к конфиденциальности информации. Постепенно привыкая к возможностям, которые они предоставляют, и пользователи, и компании могут быть шокированы результатом их далекой от оптимальности обработки. В качестве примера можно привести сервис Flu Trends, созданный Google: проект был предназначен, для того чтобы визуализировать распространение эпидемий гриппа, опираясь на динамику поисковых запросов по словам, имеющим отношение к гриппу, в разных населенных пунктах. Сначала сервис делал довольно точные прогнозы относительно распространения эпидемий, но затем что-то случилось с алгоритмами, и показания сервиса оказались настолько неточными, что в 2009 году он даже не сумел предупредить пользователей о пандемии свиного гриппа. «Существуют области, где применимость машинного обучения будет во вред бизнесу, — уверен Артем Кулбасов. — Например, достаточно сложно спрогнозировать ценовую политику для b2b-сегмента, где решения часто рождаются в итоге долгих переговоров топ-менеджеров, которые имеют свойство быть весьма нелогичными в выборе подрядчиков».

Аналитика оптом и в розницу

Большие данные уже привели к рождению нового стремительно растущего рынка — торговли аналитикой на их основе. Андрей Зайко приводит в пример компанию «МаксимаТелеком» — оператора Wi-Fi в московском метро, — которая собирает колоссальные объемы данных о пользователях: знает пол, возраст, интересы, а главное, где они живут, работают, где регулярно бывают, чем интересуются. «На основе этих данных рекламодатели более прицельно закупают рекламу у компании «МаксимаТелеком», а пользователи получают информацию о действительно интересных им услугах и продуктах. Возможности кросс-маркетинговых кампаний с другими видами бизнеса безграничны», — отмечает Андрей Зайко.

Телекоммуникационные компании, особенно сотовые операторы и крупные поисковики — такие как Google, вышли на этот рынок первыми. Следующие, кто торопится занять свою долю формирующегося рынка, — банки. В 2016 году Сбербанк объявил о выходе на рынок больших данных: проект банка под названием «Открытые данные» будет собирать информацию о клиентах, систематизировать ее и обобщать, строя на ее основе статистические модели и прогнозы. Именно эти исследования и станут товаром, который Сбербанк готов предоставлять по заказу. Первыми клиентами проекта могут стать розничные сети: аналитика банка позволяет им рассчитать финансовые возможности жителей каждого конкретного района.

И уже сейчас эти возможности вызывают дискуссии об их этичности. На конференции YAC2017 в мае этого года Роман Нестер — сооснователь стартапа Segmento, купленного Сбербанком, рассказал о примере использования данных клиентов банка в интересах третьей стороны. Выполняя заказ по рекламе продукта «Грик Мак» для «Макдоналдса», сотрудники Segmento использовали данные Сбербанка о пользователях, которые совершали покупки в ресторанах быстрого обслуживания за последние несколько месяцев. Программа нашла этих клиентов в Сети, и части из них была показана адресная реклама. Роман Нестер уверял, что юристы Сбербанка тщательно проверили возможность подобного использования данных своих клиентов на соответствие закону, и все-таки инцидент вызвал весьма неоднозначную реакцию у блогеров и журналистов, пишущих на темы технологий. Это хороший пример того, что применение больших данных принесет далеко не только бонусы.

Защита персональных данных от использования компаниями в своих интересах или даже в интересах третьей стороны — актуальный вопрос для всего мира, говорит главный аналитик Российской ассоциации электронных коммуникаций (РАЭК) Карен Казарян: «С одной стороны, должны соблюдаться права пользователей. С другой — есть, например, объективные интересы правоохранительных органов, которым нужно проводить оперативно-разыскную работу. С третьей — интересы компаний, которые не должны нести никаких дополнительных издержек. Поиски баланса между этими сторонами — это процесс очень тонкой подстройки».

Правительства европейских стран всерьез озаботились защитой данных граждан. Так, в мае 2018 года в ЕС начнет действовать новый закон о защите персональных данных. Он обязывает компании рассказывать о том, как они используют данные пользователей, и удалять любую персональную информацию по просьбе гражданина. За нарушение закона предусмотрены беспрецедентные штрафы — до 4% годовой выручки компании. Готовясь к усилению контроля, компании уже идут навстречу государству и пользователям, добровольно отказываясь от многих проверенных методов работы. Например, в июне старший вице-президент Google Диана Грин сообщила в блоге корпорации, что Google больше не станет использовать письма пользователей Gmail для таргетирования рекламы. Не исключено, что многие компании будут вынуждены отказываться от связанного с аналитикой больших данных роста выручки, чтобы не потерять доходы в результате штрафов.

В России, по словам Карена Казаряна, игнорируются как интересы компаний, так и права потребителей, поскольку законы, которые вводятся якобы для защиты данных, пока исполняются избирательно.

Илья Власов