ИТ-гиганты ищут способы фильтрации фальшивых новостей

ЭкспертHi-Tech

Роботы против фейков

ИТ-гиганты ищут способы фильтрации фальшивых новостей. Растет спрос на специалистов в сфере компьютерной лингвистики и искусственного интеллекта

Заур Мамедьяров

Недавно в русскоязычном сегменте Facebook (соцсеть признана в РФ экстремистской и запрещена) разразился скандал: сотрудница известной компании опубликовала пост, в котором утверждалось, что российские футбольные фанаты жестоко убили девушку. Довольно быстро выяснилось, что эта история — фейк (англ. fake «фальшивка»): праздновавшие победу над Испанией футбольные фанаты к гибели девушки никакого отношения не имели. То, как легко многие поверили недостоверной информации, показывает, что фейки отлично умеют маскироваться под настоящие новости и способны будоражить общество.

Легкость и бесплатность распространения информации привели к ее избытку и усложнили фильтрацию. Помочь решить проблему могут новейшие технологии обработки данных. Гиганты ИТ-отрасли запустили проекты, которые позволят пользователям отличать достоверную информацию от fake news и публикаций, распространяемых ботами. В арсенале компаний — специальные алгоритмы, выявляющие фейки, контекстный и семантический анализ, использование искусственного интеллекта для выявления лжи.

Пока наиболее распространенным методом выявления фейков остается ручной труд. Функции роботов выполняют люди: например, в Facebook (соцсеть признана в РФ экстремистской и запрещена) для анализа контента используют жалобы на сообщения как от рядовых пользователей, так и от специально нанятых сотрудников, и снижают приоритет показа «плохих» сообщений в новостной ленте. Для этого требуется большое число сотрудников, просматривающих сообщения, и Facebook (соцсеть признана в РФ экстремистской и запрещена) запустил программу проверки фактов, заключив партнерства со сторонними компаниями, которые предоставляют такие услуги. Контент Facebook (соцсеть признана в РФ экстремистской и запрещена) контролируют более пятнадцати тысяч человек, к концу года планируется привлечь еще пять тысяч. В прошлом месяце представители Facebook (соцсеть признана в РФ экстремистской и запрещена) заявили, что за два года программа позволила сократить число фейков на 80%, а в ближайшее время ее расширят еще на 14 стран. Впрочем, скептики указывают, что реальная причина распространения фейков не решается, потому что компании невыгодно мешать росту трафика, который приносит рекламную прибыль.

Тесса Лайонс, менеджер Facebook (соцсеть признана в РФ экстремистской и запрещена), недавно признала, что без технологий не обойтись и в компании начинают исследовать возможности решения проблем с помощью машинного обучения. В начале июля Facebook (соцсеть признана в РФ экстремистской и запрещена) купил британский стартап Bloomsbury AI; по оценкам аналитиков TechCrunch, сумма сделки составила около 30 млн долларов. Главная компетенция Bloomsbury AI как раз в технологиях обработки естественного языка, и Facebook (соцсеть признана в РФ экстремистской и запрещена) вступил в борьбу за редких специалистов в этой области.

Впрочем, эксперты Массачусетского технологического института (МТИ) указывают на три технологические проблемы, без решения которых реального прогресса в автоматическом противодействии фальшивкам и оскорблениям в Сети не достичь. Две проблемы связаны с колоссальной сложностью естественного языка. Во-первых, алгоритмы пока еще очень плохо улавливают смысл слов, а в случае с фейками это важно. Во-вторых, даже если проблема выявления смыслов сдвинется с места, сразу же появятся технологии, которые будут обманывать алгоритмы, настроенные на поиск недостоверной информации, и эти алгоритмы придется переделывать. Возникнет ситуация гонки вооружений. Третья проблема — видео, которое приобретает все большую роль в информационном пространстве. Машинное понимание видео развито очень слабо, и эксперты MИТ полагают, что основные проблемы в ближайшие годы придут как раз со стороны фейковых видеоматериалов.

Фейки и Трамп

Исследователь из Стэнфордского университета Кумар Шриджан в своей недавней работе предлагает отличать фальшивые новости от ошибок, сплетен, фальшивых отзывов и мистификаций. Под fake news, по мнению ученого, следует понимать классическую дезинформацию, когда автор сообщения намеренно вводит аудиторию в заблуждение для достижения политических, пропагандистских или иных целей. Однако в эпоху интернета понятие fake news можно расширить и включить в него любую недостоверную информацию, маскирующуюся под проверенный новостной повод.

В Pew Research Center, американском исследовательском центре, занимающимся социальными вопросами, отмечают, что активное распространение фейков становится следствием поляризации общества. Самая поляризующая общество тема, конечно, политика, и fake news чаще всего имеют политическую окраску. Но это же происходит и в вопросах здравоохранения, биржевых котировок, криптовалют, проблемы ГМО.

По данным Pew Research Center, в первый год президентства Дональда Трампа градус разногласий между республиканцами и демократами по десяти ключевым политическим и социальным вопросам (расовые и иммиграционные проблемы, национальная безопасность, экология) достиг рекордного уровня. Растет неприязнь представителей партий США друг к другу: если в 1994 году только 16% демократов относились к Республиканской партии резко отрицательно, то к 2017 году этот показатель вырос до 44%. Аналогичным образом ухудшилось и отношение республиканцев к Демократической партии.

В ходе предвыборной гонки противостояние двух главных американских партий вылилось в бесконечный поток fake news как с одной, так и с другой стороны. Исследователи подсчитали, что в последние недели предвыборной кампании в США в 2016 году более четверти взрослых американцев заходили на сайты, намеренно и регулярно публиковавшие fake news с агитацией за Трампа или Хиллари Клинтон. Более того, во время американской предвыборной кампании топ-20 fake news в Facebook (соцсеть признана в РФ экстремистской и запрещена) оказались совокупно более популярны, чем топ-20 реальных историй (фейки собрали 8,7 млн откликов пользователей, а настоящие новости — 7,3 млн).

Во всем виноваты технологии

После победы Трампа в ведущих западных научных журналах стали появляться статьи, в которых авторы попытались объяснить причины распространения фальшивых новостей, а также оценить возможности противодействия им. Исследования механизмов распространения фейков ведут ученые из Стэнфордского университета, Йеля, MТИ и университета Карнеги—Меллона. Так, Гордон Пенникук и Дэвид Рэнд из Йеля утверждают, что главная причина проблемы — леность мышления современной аудитории, которая зачастую критически не осмысливает поступающую к ней информацию. Эксперименты показывают, что люди довольно легко верят фальшивой информации, даже если она была создана без участия человека.

Другая причина — эффект эхо-камеры. Люди предпочитают верить той информации, которая соответствует их убеждениям, и в социальных сетях чаще окружают себя теми, кто разделяет их взгляды, при этом толерантность к противоположным мнениям резко уменьшается. Система лайков ведет к гомогенизации социальной сети, где альтернативные мнения не приветствуются и создается среда для приятия только идеологически подходящего содержания. Несогласные же приобретают статус противостоящей стороны и образуют «вражеский» информационный лагерь.

Онур Варол и его коллеги из Университета Индианы в Блумингтоне выяснили, что особенно быстро лживая информация распространяется в сети Twitter. При этом выделяют два типа распространения. Представим, что одно и то же сообщение получило более тысячи ретвитов. В одном случае его опубликовал известный человек с большим числом подписчиков, и тысяча пользователей сделала ретвит. При этом дальше сообщение не ретвитили — так бывает, если оно интересно только подписчикам человека. Такое сообщение характеризуется большой широтой проникновения, но малой глубиной. В другом случае сообщение малоизвестного человека получило десять ретвитов от друзей, а затем подписчики каждого из них продолжили делать ретвиты. Так может набраться та же тысяча, но глубина проникновения новости существенно выше. Фейки характеризуются тем, что одновременно обладают очень большой глубиной и шириной.

Еще до избрания Трампа при помощи компьютерных методов другие ученые из Университета Индианы, Майкл Коновер и Джейкоб Раткевич, исследовали 250 тыс. твитов (от 45 тыс. пользователей), содержащих политически окрашенные хештеги. Ученые выявили разную роль двух типов взаимодействия в Twitter: ретвит сообщения и упоминание другого пользователя, — эти взаимодействия рождают совершенно разные структуры (разные сетевые топологии). Если, например, провести анализ политических предпочтений участников Сети и построить граф (где узлы могут быть, например, сообщениями той или иной политической окраски) с использованием силовых алгоритмов, то сеть превратится в набор отстоящих друг от друга плотных клубков. Силовые алгоритмы моделируют силу притяжения и отталкивания между узлами (например, если узлом является сообщение, то на основе частоты ретвитов) и дают картину, в которой наиболее близкие по смыслу, содержанию или частоте упоминаний узлы находятся рядом, а другие отстоят чуть дальше.

В работе Коновера и Раткевича ретвиты дают два плотных, но отделенных друг от друга сообщества. Это феномен политической поляризации — пользователи делают ретвиты только тех, чья идеология им близка. Сетевая топология упоминаний других пользователей совершенно иная — здесь присутствует один плотный массив связей: пользователи, желающие обсуждать и взаимодействовать, обращаются к различным по содержанию твитам в равной степени. Авторы исследования делают вывод, что именно общение в комментариях и упоминания друг друга позволяют пользователям увидеть информацию, которую они рассматривают как нежелательную, что становится сдерживающим рост поляризации фактором.

«Цифра» против фейков

Ведущие компании меняют свои продукты, чтобы противостоять фейкам. Например, с fake news начал бороться WhatsApp, групповые чаты которого являются отличной средой для распространения фейковых новостей (особенно серьезная ситуация сложилась в Индии, где из-за распространяемых через WhatsApp фейковых сообщений о похищениях детей толпа линчевала нескольких жителей страны). Недавно WhatsApp представил новую функцию: теперь приложение автоматически будет переходить по всем пересылаемым в групповых чатах ссылкам, чтобы проверить, насколько можно верить источнику информации. Если приложение посчитает информацию недостоверной, сообщение будет отмечено красным значком «подозрительная ссылка», чтобы пользователи знали, каким новостям верить не стоит.

Компания Eyeo (создатель блокировщика рекламы Adblock) запустила расширение для Google Chrome под названием Trusted News. Разработчики проанализировали контент множества сайтов и составили их подробную классификацию. Расширение, пока работающее в бета-версии, отмечает сайт зеленым значком, если информации можно верить, желтым — если информация политически предвзятая, синим — если сайт представляет собой сатирический ресурс, в шутку распространяющий выдуманные новости.

Учитывая мультиканальность современных медиа, фейки распространяются не только в виде текстовой информации, но и в виде фотографий. Компания Adobe изучает технические возможности распознавания сфабрикованных фотографий: недавно компания опубликовала результаты исследовательской работы о том, как машинное обучение может обнаруживать фейковые фото. Исследовательская группа Adobe рассмотрела три основных способа манипуляции изображениями: копирование фрагментов оригинальной фотографии и вставка их в другое изображение, копирование и перемещение фрагментов в пределах одного изображения и удаление фрагментов изображения с последующей ретушью. В рамках исследования Adobe учила ИИ анализировать цветовой баланс и шумы изображения, чтобы обнаруживать фрагменты фото, которые подверглись ретуши.

Facebook (соцсеть признана в РФ экстремистской и запрещена) тоже привлек ученых к исследованию феномена fake news и методов борьбы с ними: компания открыла данные со своих серверов исследователям, входящим в организацию Social Science One. Ученые получат доступ к петабайту данных: множеству постов на Facebook (соцсеть признана в РФ экстремистской и запрещена), среди которых есть и ссылки на фейковые новости. Исследователи смогут увидеть возраст, пол, политические взгляды, историю перехода по другим ссылкам всех, кто публиковал, лайкал и репостил эти публикации.

Особенно масштабную борьбу с фейками предпринял Google, который в марте этого года запустил программу Google News Initiative, призванную бороться с фейками и ботами. Всего на программу, рассчитанную на три года, Google выделил 300 млн долларов. Программа включает в себя несколько проектов. Например, проект Disinfo Lab (проводится совместно с программой Гарварда First Draft) призван бороться с дезинформацией во время выборов и в режиме breaking news: с помощью машинного обучения сервис будет определять ненадежные источники информации и исключать их из новостной выдачи.

Появляются и совместные волонтерские проекты исследователей и разработчиков из различных компаний — например, Fake News Challenge, который объединил сто волонтеров. Организаторы проекта устроили конкурс на разработку инструментов противостояния fake news. Участники Fake News Challenge разбили задачу выявления фейковых новостей на части: на первом этапе конкурса они создавали инструменты, позволяющие определять, насколько заголовок соответствует содержанию новости.

Одной из перспективных технологий, способной помочь в решении проблемы, является интеллектуальный анализ текста (text mining) — совокупность методов количественного и качественного анализа данных. Интеллектуальный анализ текста включает в себя методы машинного обучения, прикладной статистики и информационного поиска. Например, в понятие интеллектуального анализа текста включается технология поиска по ключевым словам, которая позволяет проанализировать частоту появления определенных слов в тексте. Соответствующие методы относятся к частным случаям анализа данных (data mining). Технологии позволяют выявлять закономерности и связи в текстовых массивах данных, разделять фрагменты текстов по категориям — среди прочего ученые могут создать каталог характерных для фейковых новостей черт (например, слова, носящие эмоциональную окраску) и на их основании отделять фейковую информацию от достоверной. Другие подходы включают в себя предиктивные модели: они присваивают новости положительные или отрицательные коэффициенты, по которым можно определять вероятность того, что история правдива.

Любопытно исследование Эликса Рула и его коллег из Колумбийского университета. Авторы провели машинный анализ содержания всех ежегодных посланий «О положении страны» президентов США за период с 1790 по 2014 год — это 228 посланий общим объемом более 1,7 млн слов. Ученые создали семантическую сеть на основании частоты совместного появления тех или иных слов в послании и разделили соответствующие слова на категории («преступность», «иммиграция», «флот» и проч.). Результаты показали как близость тем всех посланий, так и выпадение из дискурса одних тем и возникновение других. Подобные исследования гораздо больших массивов онлайн-данных не за горами, и рост вычислительных мощностей крупнейших корпораций откроет новые возможности для манипулирования информацией и политтехнологий.

Постправда

Главный редактор RT Маргарита Симоньян, выступая на Международном конгрессе по кибербезопасности, высказала опасения, что в ближайшем будущем технологии сделают fake news неотличимыми от правды. В качестве примера Симоньян привела фейковую новость о применении химического оружия в Сирии, распространенную организацией «Белые каски». Она подчеркнула, что в будущем нельзя будет доверять даже видеоматериалам, поскольку технологии смогут создать полную иллюзию достоверности.

В 2016 году редакция Оксфордского словаря объявила словом года термин «постправда». Слово описывает обстоятельства, когда при распространении информации эмоции и личные мнения важнее, нежели объективные факты. По мнению профессора Техасского университета Кэтлин Хиггинс, этот термин отлично характеризует состояние современного информационного пространства. Она подчеркивает, что сегодня общество легко верит фейковым новостям, политической пропаганде и ложным обещаниям политиков. Но так было не всегда: например, во времена Ричарда Никсона американцы крайне негативно воспринимали дезинформацию.

Как ни парадоксально, СМИ, которые, казалось бы, должны бороться с fake news, часто сами способствуют распространению фальшивок. Во многих новостных онлайн-изданиях существует правило: на написание новости у корреспондента должно уходить не более десяти минут, если новость срочная — не более пяти. Сайты фейковых новостей и непроверенные источники вроде соцсетей еще больше распыляют внимание журналистов. Появляются и сатирические издания, которые публикуют фейки в шутку: например, американский The Onion или российская «Панорама». Такие медиа специально указывают, что публикуемая ими информация — выдумка. И все же новостные издания часто не замечают этого и со всей серьезностью публикуют выдуманные сатирические новости, появившиеся на The Onion и «Панораме».

Одними только силами роботов, с помощью машинного обучения натренированных на распознавание сомнительных источников информации, в борьбе с фейками не обойтись. Даже ИТ-гиганты признают, что в распространении fake news крайне важен человеческий фактор. В Google News Initiative большое внимание уделяется обучению пользователей самостоятельно распознавать фейки. Вместе с Институтом Пойнтера, Стэнфордским университетом и Local Media Association Google запустил проект MediaWise, в который инвестировал три миллиона долларов. Проект представляет собой учебную программу для подростков: школьников и студентов будут учить самостоятельно определять подлинность информации в интернете. В рамках программы подростки будут работать вместе с профессиональными журналистами: ученики будут тренироваться в умении отличать в интернете правду от вымысла, а результаты их исследований будут опубликованы на различных сайтах и в социальных сетях. Институт Пойнтера планирует, что в программе примет участие один миллион подростков.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Северное чудо Северное чудо

Северодвинск — город, где нет безработных, бомжей и нищих

Эксперт
Какие кроссовки носили мужчины на этой неделе Какие кроссовки носили мужчины на этой неделе

Козловский в кедах Gucci, Тимати в Yeezy и Джордж Лукас в Nike

GQ
Сделай сам: победят ли Илона Маска самарские многоразовые ракеты Сделай сам: победят ли Илона Маска самарские многоразовые ракеты

Когда S7 Space будет производить ракеты, придется решать и экономические вопросы

Forbes
Та самая, но другая Та самая, но другая

Рита Ора — о новом альбоме и судебном разбирательстве с Джей-Зи

Glamour
Король Генри Король Генри

Все, чего мы не знали о Генри Кавилле

Glamour
Ольга Ушакова: От плохого настроения не застрахован никто Ольга Ушакова: От плохого настроения не застрахован никто

Ведущая программы «Доброе утро» – о семье, детских мечтах и секретах счастья

Лиза
Золотые горы Золотые горы

Как работает казино в новой игорной зоне «Красная Поляна»

Forbes
Хочу – и баста! Хочу – и баста!

5 секс-советов, которые пригодятся в постели даже консерваторам

Cosmopolitan
Съезжать от родителей и еще 9 разорительных ошибок молодости Съезжать от родителей и еще 9 разорительных ошибок молодости

Финансовые глупости молодых перечислять можно бесконечно и с удовольствием

Maxim
Как зародилась жизнь: гипотеза Аби Лёва Как зародилась жизнь: гипотеза Аби Лёва

Ави Лёб недавно выступил с довольно фантастической гипотезой

Популярная механика
Хип-хоперша Несс Найт — девушка трудной судьбы с большим будущим Хип-хоперша Несс Найт — девушка трудной судьбы с большим будущим

Как Несс Найт прошла путь от хостес в стрип-клубе до восходящей звезды

Vogue
Отпуск без проблем Отпуск без проблем

Как не «подцепить» болезнь во время отдыха на популярных у россиян курортах

Лиза
Еврейские анекдоты Еврейские анекдоты

Прогулки по Иерусалиму в поисках еврейского счастья

Вокруг света
Бизнес и «вата». Как скандал вокруг «Леруа Мерлен» диагностирует сетевую культуру Бизнес и «вата». Как скандал вокруг «Леруа Мерлен» диагностирует сетевую культуру

Скандал вокруг теперь уже бывшего PR-директора «Леруа Мерлен» Галины Паниной

Forbes
Революция в городе Революция в городе

Перспективные инновации радикально преобразят наши города

Quattroruote
Одежды ангелов Одежды ангелов

Экскурсия по лондонскому ателье, где создают костюмы для главных киношедевров

Вокруг света
Хороший курс. Рубль может укрепиться к доллару до конца года Хороший курс. Рубль может укрепиться к доллару до конца года

Российская валюта значительно недооценена

Forbes
Календарь Pirelli 2019 — кадры из-за кулис съемок Календарь Pirelli 2019 — кадры из-за кулис съемок

Знаменитости в объективе шотландского фотографа Альберта Уотсона

Esquire
Как найти работу? Стать бездомным и раздавать на улице всем свое резюме Как найти работу? Стать бездомным и раздавать на улице всем свое резюме

Техасский разработчик решил переехать в Кремниевую долину для запуска стартапа

Playboy
Бермудский флот Бермудский флот

Forbes составил первый рейтинг яхт российских миллиардеров

Forbes
Слабое звено: почему рубль будет худшей валютой 2018 года Слабое звено: почему рубль будет худшей валютой 2018 года

Российскую валюту сбили с ног апрельские санкции, а сейчас добивают реформы

Forbes
Ваш поезд ушел Ваш поезд ушел

«СтарХит» узнал, ради кого Андрей Данилко оставляет сцену

StarHit
Пагубная зависимость. Польша оценила свои потери от соглашений с «Газпромом» Пагубная зависимость. Польша оценила свои потери от соглашений с «Газпромом»

Варшава вела переговоры с российскими властями о поставках газа без подготовки

Forbes
Охота на черных лебедей. Откуда ждать нового финансового кризиса Охота на черных лебедей. Откуда ждать нового финансового кризиса

Противоречия в мировой торговле могут загнать глобальную экономику в кризис

Forbes
Путин заявил, что не одобряет повышение пенсионного возраста Путин заявил, что не одобряет повышение пенсионного возраста

Владимир Путин заявил, что его не устраивают варианты пенсионной реформы

Forbes
Каким был последний день чемпионата мира по футболу. Фоторепортаж Каким был последний день чемпионата мира по футболу. Фоторепортаж

15 июля на стадионе "Лужники" состоялся финал чемпионата мира по футболу

Esquire
Не цифрой единой Не цифрой единой

Парадокс альтернативных инвестиций

Forbes
Просто и со вкусом: 12 самых модных укладок этого лета Просто и со вкусом: 12 самых модных укладок этого лета

12 самых модных укладок этого лета

Cosmopolitan
От сих до псих От сих до псих

Все мы немножко психи. Но это не повод начинать психовать!

Maxim
Яндекс проиндексировал и дал доступ к тысячам документам Google Docs Яндекс проиндексировал и дал доступ к тысячам документам Google Docs

Вчера одна половина рунета узнала пароли другой

Maxim
Открыть в приложении