Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

8 полезных свойств орехом макадамия, о которых вы не знали 8 полезных свойств орехом макадамия, о которых вы не знали

Макадамия: чем полезны для организма эти орехи?

ТехИнсайдер
Побежали! Побежали!

Рассказываем, как правильно бегать осенью и зимой, чтобы не навредить организму

Лиза
5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов 5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов

Какие «суперспособности» станут реальностью уже к 2030 году — и какой ценой?

Maxim
Илья Любимов: «Я долгое время проверял мир на прочность» Илья Любимов: «Я долгое время проверял мир на прочность»

Илья Любимов рассказал о своей семье и о том, как начиналась его карьера

Коллекция. Караван историй
8 доказанных наукой привычек, которые действительно повышают интеллект 8 доказанных наукой привычек, которые действительно повышают интеллект

Какие ритуалы стоит добавить в свою рутину, чтобы стать умнее

Maxim
Московская классика Московская классика

Интерьер, вдохновленный скандинавским стилем и духом старой Москвы

SALON-Interior
Чем закусывали пиво в СССР? Чем закусывали пиво в СССР?

Сушки — одна из самых популярных закусок в советское время

Maxim
E-SIM в часах: действительно ли она вам нужна E-SIM в часах: действительно ли она вам нужна

E-SIM действительно очень удобная функция, но так ли она нужна?

CHIP
Стеклянный небосвод вместо стеклянного потолка. Отрывок из книги о женщинах-астрономах Стеклянный небосвод вместо стеклянного потолка. Отрывок из книги о женщинах-астрономах

История первых женщин-астрономов

СНОБ
Премия за самый короткий импульс света Премия за самый короткий импульс света

Как электроны связаны с современной наукой?

Наука и жизнь
Очевидная премия за очевидные открытия: Клаудиа Голдин Очевидная премия за очевидные открытия: Клаудиа Голдин

Клаудиа Голдин объяснила, почему женщины зарабатывают меньше мужчин

Наука
Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение» Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение»

О Римме Марковой рассказывают ее дочь Татьяна Никитина и друг — Сергей Касьянов

Караван историй
У нас подкаст. Возможно, криминал: почему все кругом слушают и смотрят подкасты о маньяках, и когда это началось? У нас подкаст. Возможно, криминал: почему все кругом слушают и смотрят подкасты о маньяках, и когда это началось?

С чем связано желание аудитории слушать и читать «про страшное»?

Правила жизни
5 правил хорошей ссоры 5 правил хорошей ссоры

Как сохранить себя и отношения после очередной душераздирающей ссоры

Psychologies
Колумбия будет стерилизовать «кокаиновых» бегемотов Колумбия будет стерилизовать «кокаиновых» бегемотов

Когда Пабло Эскобар завел бегемотов, он не ожидал, что им понравится Колумбия

ТехИнсайдер
Что на самом деле совершили панфиловцы и сам Панфилов осенью 1941-го Что на самом деле совершили панфиловцы и сам Панфилов осенью 1941-го

Дискуссии о подвиге 28 панфиловцев — «было? не было? а если было, то как?»

Maxim
Спорт круглый год: можно ли бегать зимой и какая от этого польза Спорт круглый год: можно ли бегать зимой и какая от этого польза

Бегать зимой можно! Нужно лишь учитывать некоторые нюансы

ТехИнсайдер
Отпусти и забудь Отпусти и забудь

5 советов, которые помогут восстановиться после развода

Лиза
Красная курица, или Парижские жители Красная курица, или Парижские жители

«Цыпленок для Линды»: нарисованная история про память

Weekend
Лень или нежелание? Лень или нежелание?

Разбираемся в скрытых причинах отложенных дел

Grazia
Бесстрашное величие Бесстрашное величие

Как возвышенное научилось быть смешным

Weekend
Как приготовить идеальный стейк: научный советы Как приготовить идеальный стейк: научный советы

Как превратить простой кусок мяса в шедевр

ТехИнсайдер
Жизнь в недостатке: каких кадров не хватает российскому онлайн-ретейлу Жизнь в недостатке: каких кадров не хватает российскому онлайн-ретейлу

Каких специалистов недостает в российском онлайн-ретейле и что с этим делать

Forbes
«Я горюю о ней»: психотерапевт об умиравшей клиентке, принятии смерти и нарушении правил «Я горюю о ней»: психотерапевт об умиравшей клиентке, принятии смерти и нарушении правил

Травматерапевт — о работе с клиенткой, умиравшей от рака

Psychologies
Спасение утонувшего Спасение утонувшего

«Как заниматься сексом»: дежурная тинейджерская агитка

Weekend
3 способа не испортить секс по дружбе 3 способа не испортить секс по дружбе

Что важно предусмотреть, чтобы дружба с привилегиями была комфорта для всех

Maxim
Сабина Ахмедова Сабина Ахмедова

Сабина Ахмедова — почему круто быть госпожой своей жизни

Собака.ru
Александр Олешко: «Гурченко этой фразой давала мне шанс исправить ситуацию...» Александр Олешко: «Гурченко этой фразой давала мне шанс исправить ситуацию...»

Александр Олешко — о Валентине Леонтьевой, любви к дикторам и телевидении

Коллекция. Караван историй
Кто такой душный человек и как понять, что вы не один из них? Кто такой душный человек и как понять, что вы не один из них?

Почему в помещении с этими людьми словно исчезает весь кислород?

РБК
От безработицы к дефициту кадров: как сломалась российская модель рынка труда От безработицы к дефициту кадров: как сломалась российская модель рынка труда

Что привело к нехватке рабочих рук и почему так сложно решить проблему вакансий

Forbes
Открыть в приложении