ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Как научиться принимать комплименты Как научиться принимать комплименты

Почему бывает трудно принимать комплименты и как с этим справиться

Inc.
И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Русско-американские отношения в XIX веке. Часть 2 Русско-американские отношения в XIX веке. Часть 2

Какими были отношения США и России накануне войны между Севером и Югом

Наука и техника
Достопримечательность города Достопримечательность города

Бордели с человекоподобными куклами – новый тренд или это уже слишком?

Playboy
Прививка от аллергии АСИТ — как она работает? Прививка от аллергии АСИТ — как она работает?

Вместо того чтобы смягчать симптомы аллергии, можно устранить причину

СНОБ
Ледокол и птица с хоботом Ледокол и птица с хоботом

Журавлиный профиль кранов безошибочно подсказывает: где-то рядом порт или верфь

Популярная механика
Еда с повышенным содержанием расходов Еда с повышенным содержанием расходов

Что толкает цены на продовольствие вверх

Эксперт
8 вещей, которые нашатырный спирт сделает идеально чистыми 8 вещей, которые нашатырный спирт сделает идеально чистыми

Аммиак — один из самых мощных и недорогих бытовых очистителей

VOICE
Золотые гривы Золотые гривы

Как в Ивашкове появилось ранчо с золотогривыми лошадьми

Отдых в России
Ученые говорят, что наши мышцы стареют не так быстро, как нам кажется Ученые говорят, что наши мышцы стареют не так быстро, как нам кажется

У пожилых людей мышечные повреждения после спортивных нагрузок не так серьезны

ТехИнсайдер
«Я всегда побеждаю»: как французская актриса Сара Бернар сделала себя сенсацией «Я всегда побеждаю»: как французская актриса Сара Бернар сделала себя сенсацией

История суперзвезды рубежа XIX-го и XX веков Сары Бернар

Forbes
Как утолить эмоциональный голод, если у вас нет партнера: 5 сфер, на которые стоит обратить внимание женщине Как утолить эмоциональный голод, если у вас нет партнера: 5 сфер, на которые стоит обратить внимание женщине

Одиночество — это не пустота, а пространство для наполнения своей жизни смыслами

Psychologies
Гладкая мускулатура самолета – электродвигатели Гладкая мускулатура самолета – электродвигатели

Как выглядят авиационные электродвигатели, где установлены и как управляются?

Наука и техника
«У художника нет цели — только путь» «У художника нет цели — только путь»

Зорикто Доржиев о том, как искать себя в легендах и находить на Christie’s

Weekend
Поставки по расписанию Поставки по расписанию

Что экспортировал СССР во время войны

Эксперт
Система Юпитера: Ганимед и Каллисто Система Юпитера: Ганимед и Каллисто

Что делает Ганимед и Каллисто очень интересными космическими телами?

Наука и техника
Бессвязные дороги Бессвязные дороги

Как обеспечить автодороги сотовой связью без переплат

Ведомости
Беззубый театр. Беседа на спорные темы Беззубый театр. Беседа на спорные темы

Продолжение статьи худрука Марка Розовского о современном театре

Знание – сила
Исследование показало, что видеоигры не оказывают негативного влияния на мозг детей, а наоборот, повышают их IQ Исследование показало, что видеоигры не оказывают негативного влияния на мозг детей, а наоборот, повышают их IQ

Дети, активно играющие в видеоигры, имеют высокий уровень умственной активности

Inc.
Сарацинка, воительница, христианка Сарацинка, воительница, христианка

В эпоху джахилийи у разных племен бедуинов положение женщин различалось

Знание – сила
Зажигая маяки Зажигая маяки

Зимнее бездорожье длиной в 2 недели: что манит участников «Экспедиции-Трофи»?

Отдых в России
Как сохранить близость с детьми, даже когда они становятся взрослыми Как сохранить близость с детьми, даже когда они становятся взрослыми

Если вы хотите, чтобы ваши дети всегда доверяли вам, следуйте этим советам

Inc.
Неуместные следы и водоплавающий единорог: злоключения Карла Бау Неуместные следы и водоплавающий единорог: злоключения Карла Бау

«Научный» креационизм. Мифы и предубеждения

Наука и техника
Развитие вместо красивых отчетов Развитие вместо красивых отчетов

Как Intelligence Top 100: Global NOC & IOC отражает работу нефтегазовых компаний

Эксперт
Сверхурочная экономика Сверхурочная экономика

Власти и работодатели концептуально договорились об изменении Трудового кодекса

Ведомости
В Госдуму внесли законопроект о запрете выгула опасных собак пьяными людьми и детьми В Госдуму внесли законопроект о запрете выгула опасных собак пьяными людьми и детьми

Госдума хочет внести изменения в нормы об ответственном обращении с животными

Forbes
Физика в поисках ответа на разгадку бытия: от Эйнштейна до Хокинга и Лоуренса Краусса Физика в поисках ответа на разгадку бытия: от Эйнштейна до Хокинга и Лоуренса Краусса

Почему существует Вселенная? Почему существует мир, почему в нем есть мы?

Знание – сила
Соль земли Соль земли

Зимнее путешествие по Пермскому краю: ледяная пещера, Чердынь и виды Колвы

Отдых в России
Коллекция суеверий Коллекция суеверий

Угличский музей мистики Дарьи Чужой переосмысляет фольклор

Отдых в России
Открыть в приложении