Информационные цунами можно и нужно уметь предсказывать

Цифровой океанHi-Tech

Вeликий pусский читатель

Восемь миллиардов человек, населяющих землю, — это сила. Пять миллиардов из них, имеющих доступ в Интернет, — это уже стихия. Информационные цунами, которые люди с легкостью разгоняют в соцсетях, можно и нужно уметь предсказывать. Для этого достаточно всего лишь читать и понимать все, что пишут пять миллиардов человек

Текст: Виталий Кавтарадзе

Людям такая работа не по плечу, исследовать коллективное бессознательное в планетарных масштабах можно только с помощью роботов. Специалисты по компьютерной лингвистике и машинному обучению из компании Brand Analytics уже 10 лет учат машины понимать людей. Они рассказали нам, что…

Язык — это алгоритм, но…

Люди часто меняют правила по ходу игры. Так, еще в 1960-е годы пионеры компьютерной лингвистики решили представить язык как базу данных слов во всех возможных формах, а также свод правил их использования. При таком подходе обучение машины чтению напоминает знакомые всем уроки русского языка в школе. Учитель одновременно развивает словарный запас учеников и тренирует их определять части речи, проводить синтаксический анализ предложений, морфологический разбор слов по формальным признакам.

Пример: «Танцовщица распрямила кисть». Первое слово — существительное «танцовщица», имеет окончание «-а», а значит, используется в именительном падеже, единственном числе, имеет женский род. «Распрямила» — глагол, в котором окончание «-а» указывает на прошедшее время. Также можно установить, что «танцовщица» — подлежащее, это существительное указывает на объект, совершавший действие.

Такой простой, на первый взгляд, подход позволял машинам неплохо справляться с переводом официальных документов. Если слово нашлось в словаре на одном языке, нетрудно подобрать смысловой аналог из базы данных другого языка. Однако сразу возникли препятствия: алгоритмический анализ спотыкался об омонимы — одинаковые слова разного значения. Например, существительное «кисть» может означать часть руки, инструмент для рисования или ветку с ягодами. Для разрешения таких случаев лингвисты добавили в алгоритм анализ контекста, заставив машину смотреть, какие слова связаны со спорным словом. Другой проблемой стали редко используемые в языке слова и термины. Например, фамилию бывшего президента Франции Саркози компьютер может считать несуществующим глаголом «саркозить» в повелительном наклонении. Такие казусы решаются регулярным пополнением словарей, а также анализом частоты упоминания каждого слова вместе с другими.

Однако когда в 2000-е годы появились соцмедиа — площадки, на которых пользователи сами оставляют сообщения, — языки начали очень быстро меняться. Люди стали пользоваться письменной речью как устной*, и для выражения интонаций и эмоций потребовались новые инструменты: сокращения, эмодзи, фонетическое письмо. «Дратути» вместо «здравствуйте», «щас» вместо «сейчас» и «кагбэ» вместо «как бы». Чтобы понять такое, машины должны приспособиться к творческому использованию языка человеком.

* Подробнее об этом «Цифровой океан» вместе с лингвистом Максимом Кронгаузом рассказывал в материале «Садись, два!», опубликованном в выпуске № 5.

«В начале нашей работы с лингвистическими алгоритмами мы использовали готовые словари, но быстро поняли, что для качественного распознавания живого языка нужно создавать свои базы данных и тезаурус реального современного языка, а также регулярно их пополнять. Вложения в разработку словарей окупились: нам удалось поднять точность классификации текста и его тональности в среднем с 85% до 92%. Позже мы стали первой компанией в мире, разработавшей определение тональности для казахского языка». 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Академик Леопольд Лобковский: я не увидел ответа в антропогенной теории потепления Академик Леопольд Лобковский: я не увидел ответа в антропогенной теории потепления

Академик Леопольд Лобковский: человек не виноват в глобальном потеплении

Наука
Нуар с двойным дном Нуар с двойным дном

«Шугар»: Колин Фаррелл копипастит голливудскую классику

Weekend
Мacштaб Мacштaб

Масштабы Крайнего Севера, британского парламента и микросхем

Цифровой океан
8 нетривиальных способов лучше узнать свою вторую половинку 8 нетривиальных способов лучше узнать свою вторую половинку

Активности, которые помогут лучше узнать партнера и открыть с новых сторон

Maxim
Зимняя книга сказок. 6 мест для снежного отдыха Зимняя книга сказок. 6 мест для снежного отдыха

Зимой хочется попасть в сказку! В России есть много мест, где мечты сбываются

Цифровой океан
Жена Николая Еременко: «В самом начале нашего романа Коля предупредил меня, что женат» Жена Николая Еременко: «В самом начале нашего романа Коля предупредил меня, что женат»

«Я хочу дать тебе свою фамилию. Никаким женам не давал, а тебе дам»

Караван историй
Мaшины во вpeмени Мaшины во вpeмени

Изучать лунные кратеры и понимать животных — что еще нейросети делают лучше нас?

Цифровой океан
Как сохранить любые отношения: мнение психолога Как сохранить любые отношения: мнение психолога

Иногда случается так, что отношения начинают сходить на нет. Но их можно спасти!

Psychologies
Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
Как новенькая! Как новенькая!

Способы, которые помогут запустить процесс очищения и омоложения организма

Лиза
Обpaтный отсчeт Обpaтный отсчeт

Сегодня есть множество приложений, которые сокращают подготовку к празднику

Цифровой океан
Астрономы нашли на Луне потенциальный источник квазиспутника Земли Астрономы нашли на Луне потенциальный источник квазиспутника Земли

Астероид Камоалева мог быть выбит с поверхности Луны в прошлом

N+1
Беспилотное путешествие из Петepбургa в Мoскву Беспилотное путешествие из Петepбургa в Мoскву

Из северной столицы по платной трассе М11 выехал автомобиль без водителя

Цифровой океан
Работа из дома: насколько она эффективна и как не сойти с ума — 9 советов Работа из дома: насколько она эффективна и как не сойти с ума — 9 советов

Справляться со сложностями и не терять эффективность на удаленке

РБК
Полиглот, революционерка, посол Полиглот, революционерка, посол

Александра Коллонтай — женщина-миф русской революции

Дилетант
Что такое локальная сеть. Для чего нужна и как ее создать Что такое локальная сеть. Для чего нужна и как ее создать

Как легко настроить собственную локальную сеть?

Цифровой океан
Живая ткань Живая ткань

Как восстанавливают разрушенные войной города

Forbes
7 вещей, которые нельзя чистить жидкостью мытья для посуды: мнение клинеров 7 вещей, которые нельзя чистить жидкостью мытья для посуды: мнение клинеров

Почему кофеварки, латунь и нержавеющую сталь нельзя мыть мылом для мытья посуды

VOICE
Декорации для «Аббатства Даунтон» и сафари-парк: как зарабатывают поместья в XXI веке Декорации для «Аббатства Даунтон» и сафари-парк: как зарабатывают поместья в XXI веке

Как съемки фильмов и производство масла помогают содержать поместья?

Forbes
Разводиться или нет? 5 вопросов, чтобы принять решение Разводиться или нет? 5 вопросов, чтобы принять решение

Стоит ли решаться на развод? Чтобы все взвесить, ответьте себе на эти вопросы

Psychologies
Холодный прием Холодный прием

Реальный случай, когда специалист не помог, а причинил вред

VOICE
Семейный бюджет: с чего начать, чтобы всегда на все хватало Семейный бюджет: с чего начать, чтобы всегда на все хватало

Основные принципы построения семейного бюджета

Наука и Техника
Один в поле картофель Один в поле картофель

«Меч короля»: Мадс Миккельсен и северный вестерн

Weekend
Банки с лососем из 1970-х поразили ученых! Вот каких паразитов нашли внутри Банки с лососем из 1970-х поразили ученых! Вот каких паразитов нашли внутри

Ученые поразились содержимому в просроченных банках с лососем

ТехИнсайдер
«Рушится контакт с миром»: как магическое мышление влияет на наше поведение и чем оно опасно «Рушится контакт с миром»: как магическое мышление влияет на наше поведение и чем оно опасно

Почему магическое мышление стало трендом? Как сохранить здравый смысл?

Psychologies
«Нельзя узнать Францию,.. «Нельзя узнать Францию,..

Почему все любят французскую кухню? Что сделало ее самой изысканной?

Зеркало Мира
Двуглавые коровы, киберкрестоносцы и жизнерадостный карапуз: краткий гид по миру Fallout Двуглавые коровы, киберкрестоносцы и жизнерадостный карапуз: краткий гид по миру Fallout

Как устроен мир видеоигр и сериала Fallout?

Правила жизни
Образцово-показательная тюрьма: история легендарных питерских «Крестов» Образцово-показательная тюрьма: история легендарных питерских «Крестов»

Рассказываем про одну из самых легендарных тюрем России

ТехИнсайдер
Менялы вместо банков Менялы вместо банков

Перевод денег из России в другие страны превратился в настоящий квест

Монокль
Книги о путешествиях по необычным вселенным: 5 достойных фантастических новинок Книги о путешествиях по необычным вселенным: 5 достойных фантастических новинок

Подборка книг, чьи авторы создали самые необычные вселенные

ТехИнсайдер
Открыть в приложении