Возлюби хейтера* своего

В России 66 миллионов пользователей как минимум раз в месяц оставляют публичные сообщения в интернете**. Как найти среди всех постов те, которые относятся лично к вам или к вашей компании? Нагуглить не получится. Понадобится специальная аналитическая система с поисковыми роботами, нейросетями для обработки сообщений и сверхбыстрой базой данных, размещенной сразу в нескольких дата-центрах. И оно того стоит: ведь репутация дороже денег.
* Хейтер (от англ. hate, ненавидеть) — пользователь, активно выражающий свою ненависть к человеку, продукту или явлению.
** По данным Brand Analytics
К тест-драйву российской системы Brand Analytics мы подошли основательно — запустили собственную пиар-кампанию. Ссылки на «Цифровой океан» разошлись по сайтам партнеров, и редакция приготовилась пожинать плоды. Но как измерить эти плоды? Раньше мы бы собрали выборку респондентов, опросили их и посчитали медийный охват. Компания Brand Analytics предлагает вместо этого новую социологию — ту, в которой понятие выборки теряет смысл. Потому что она всегда составляет 100 %. Машины видят и слышат всех. Ну почти всех.
Большой кусок данных
Роботов для анализа контента в интернете придумали не вчера. Когда в 1990-е годы стало ясно, что Всемирная сеть не похожа на библиотеку со строгим каталогом и алфавитным указателем, появились поисковые системы. Пробуем загуглить ключевые слова нашей PR-кампании, и видим лишь пару статей на информационных сайтах. Неужели нашими текстами никто не поделился, не похвалил и не обругал?
Дело в том, что поисковая выдача — лишь верхушка айсберга. Поисковики анализируют статичный контент сайтов. Пользовательские сообщения, будь то посты в соцсетях, записи на форумах или отзывы в товарных карточках, не индексируются поисковиками. На то есть несколько причин.
Во-первых, социальные сети не пускают к себе пауков поисковых систем и даже выстраивают от них программную защиту. Пользовательский контент для соцсетей — ценный коммерческий ресурс, которым никто не станет делиться бесплатно.
Во-вторых, пользовательские сообщения — это не просто текст, это еще и комментарии, вложения, множество метаданных, таких как лайки и геометки. Поисковики не работают с такими сложно структурированными данными. Задача поисковой системы — выдать полезную подборку, как правило, текстовых материалов с сайтов, ранжируя их по релевантности запросу.
Есть еще и «в-третьих». Индексировать материалы сайтов по ключевым словам — вовсе не то же самое, что хранить все сообщения целиком, да еще анализировать их содержание и настроение. Как ни парадоксально это звучит, от такого объема информации поперхнулся бы даже Google.
А Brand Analytics не поперхнется. В базе данных компании уже хранится 180 млрд единиц контента — похвал, жалоб, шуток, споров, мемов. Российские соцсети предоставляют Brand Analytics доступ к своему контенту на договорных условиях. С зарубежными работа строится через API***.
*** API — описание способов, которыми одна компьютерная программа может взаимодействовать с другой программой.
Возможности Brand Analytics позволяют не только читать тексты, но и расшифровывать речь из видеороликов, распознавать слова на картинках. Последнее весьма ценно, учитывая последний тренд писать скриншотами. Среди 15 петабайт (миллионов гигабайт) данных компании можно найти реальное мнение людей практически по любому вопросу.