Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

6 признаков того, что в вашем рационе слишком много соли 6 признаков того, что в вашем рационе слишком много соли

Определить, что вы едите слишком много соли, можно по нескольким признакам

ТехИнсайдер
Устройство расстройства Устройство расстройства

«Книга решений»: Мишель Гондри о том, что общего у маньяка и режиссера

Weekend
Петля затягивается: чем опасна новая уязвимость для проведения DDoS-атак Петля затягивается: чем опасна новая уязвимость для проведения DDoS-атак

Эксперты обнаружили новый вид атаки типа «отказ в обслуживании» (DDoS)

Forbes
У нас есть план! У нас есть план!

Как питаться зимой, чтобы не набрать вес

Лиза
6 этапов, которые проходит человек перед смертью: взгляд медсестры хосписа 6 этапов, которые проходит человек перед смертью: взгляд медсестры хосписа

Какие этапы переживает человек прежде, чем окажется в шаге от смерти

Psychologies
Что делать, если обувь оказалась велика: 5 эффективных решений проблемы Что делать, если обувь оказалась велика: 5 эффективных решений проблемы

Можно ли каждый день ходить в ботинках, которые велики?

ТехИнсайдер
Выйти из тени Выйти из тени

В некоторых местах планеты бороться с нехваткой света приходится уже сейчас

Вокруг света
Астрономы наблюдают за «Тасманским дьяволом» — таинственной периодической вспышкой Астрономы наблюдают за «Тасманским дьяволом» — таинственной периодической вспышкой

Астрономы под руководством Университета Корнелла наблюдают мощный взрыв

ТехИнсайдер
Доступность термитов для шимпанзе долины Исса связали с сезонностью и расселением Доступность термитов для шимпанзе долины Исса связали с сезонностью и расселением

Антропологи несколько лет пробовали ловить термитов в долине Исса

N+1
Креативная Вселенная Креативная Вселенная

Как прошел и чем завершился студенческий конкурс дизайна Omoda

Автопилот
Почему икра такая дорогая? Вас поразит простота ответа! Почему икра такая дорогая? Вас поразит простота ответа!

Цена икры зависит от вида и распространенности рыбы, сбора и производства

ТехИнсайдер
Как Владимир Лебедев стал основателем советской школы детской иллюстрации Как Владимир Лебедев стал основателем советской школы детской иллюстрации

Отрывок из книги-исследования жизни и творчества Владимира Лебедева

Forbes
2 главные причины, почему люди занимаются «прощальным сексом» 2 главные причины, почему люди занимаются «прощальным сексом»

Почему нам кажется, что «секс на прощание» может стать подходящим финалом романа

Psychologies
Евгений Стеблов: «Моя проба вышла настолько удачной, что когда Данелия ее увидел, то сразу сказал: «Где этот парень?» Евгений Стеблов: «Моя проба вышла настолько удачной, что когда Данелия ее увидел, то сразу сказал: «Где этот парень?»

Когда предлагают негодяев, отказываюсь даже за очень хорошие деньги

Караван историй
«Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду «Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду

Энтомологи обнаружили новый род и вид ночных бабочек из Хорватии

N+1
Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились» Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились»

Несмотря на смутные времена, когда все плохо, все равно нельзя останавливаться

Караван историй
4 факта о торфяном виски, которые знают далеко не все ценители 4 факта о торфяном виски, которые знают далеко не все ценители

Многие ценители виски в конце концов приходят к сортам с с привкусом лыжной мази

Maxim
Кто вы из «Секса в большом городе»? Ученый разделил женщин-одиночек на 4 типа Кто вы из «Секса в большом городе»? Ученый разделил женщин-одиночек на 4 типа

Вы Кэрри, Саманта, Шарлотта или Миранда?

Psychologies
Как научиться понимать творчество Ван Гога. Отрывок из книги искусствоведа Как научиться понимать творчество Ван Гога. Отрывок из книги искусствоведа

Глава из книги искусствоведа Елены Легран «Разгадай код художника»

СНОБ
Лень или нежелание? Лень или нежелание?

Разбираемся в скрытых причинах отложенных дел

Grazia
Что такое мьюинг — для чего, как делать и есть ли эффект Что такое мьюинг — для чего, как делать и есть ли эффект

Разбираемся, влияет ли положение языка на овал лица и положение зубов

РБК
Как преодолеть тактильный голод: 4 рекомендации от психолога Как преодолеть тактильный голод: 4 рекомендации от психолога

Что делать, если один жаждет объятий, а второй холоден и отстранен?

Psychologies
Чисто английские детективы: 12 добротных сериалов для холодных вечеров Чисто английские детективы: 12 добротных сериалов для холодных вечеров

Их отличают безупречный стиль, ни с чем не сравнимая старомодная атмосфера

Psychologies
Метеорологи уточнили оценку эффекта Туми в два раза Метеорологи уточнили оценку эффекта Туми в два раза

Уточнение оценки эффекта Туми сделает климатические модели более точными

N+1
Вещи из СССР, по которым все ностальгируют, но пользоваться ими не хотят Вещи из СССР, по которым все ностальгируют, но пользоваться ими не хотят

Какие гениальные советские вещи не пользовались спросом?

Maxim
Ваше здоровье, товарищ страна. Каким получился «Пациент №1» Резо Гигинеишвили? Ваше здоровье, товарищ страна. Каким получился «Пациент №1» Резо Гигинеишвили?

«Пациент №1» — кино мирового класса, разворачивающееся на фоне конца СССР

Правила жизни
Джордан, Болт и Бобров: атлеты, проявившие себя в разных видах спорта Джордан, Болт и Бобров: атлеты, проявившие себя в разных видах спорта

Атлеты, которые проявляли себя в двух разных видах спорта одновременно

Forbes
Аттосекундное дело Аттосекундное дело

Пьер Агостини, Ференц Краус и Ан Люйе придумали, как разглядеть электрон

Наука
7 стереотипов, которые вредят отношениям 7 стереотипов, которые вредят отношениям

Стереотипы, которые мешают достичь гармонии в отношениях

Psychologies
Конец света, к сожалению, не наступил. О фильме «Дворец» Романа Полански Конец света, к сожалению, не наступил. О фильме «Дворец» Романа Полански

Зачем Полански запечатлел в одном кадре Микки Рурка и Александра Петрова

СНОБ
Открыть в приложении