Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ученые объяснили, как нейронные связи в мозгу влияют на «гибкость» ваших решений Ученые объяснили, как нейронные связи в мозгу влияют на «гибкость» ваших решений

Как гибкость мозга позволяет принимать разные решения в схожих ситуациях

ТехИнсайдер
Эволюция биосферы: архейская нищета и панспермия Эволюция биосферы: архейская нищета и панспермия

Зачем изучать эволюцию биосферы?

Наука и техника
Облачные хранилища бесплатно: где и сколько можно получить Облачные хранилища бесплатно: где и сколько можно получить

Самые популярные облачные хранилища: у каких условия самые лучшие?

CHIP
Оксана Кириллова: «Виланд». Первая часть трилогии Оксана Кириллова: «Виланд». Первая часть трилогии

Отрывок из романа, связывающего Германию 1930-х и Россию 1990-х

СНОБ
Аэропорты меняют психику людей? Вот что влияет на восприятие времени и контроль над собой! Аэропорты меняют психику людей? Вот что влияет на восприятие времени и контроль над собой!

Замечали ли вы, что в аэропортах люди ведут себя иначе?

ТехИнсайдер
Кто вы из «Секса в большом городе»? Ученый разделил женщин-одиночек на 4 типа Кто вы из «Секса в большом городе»? Ученый разделил женщин-одиночек на 4 типа

Вы Кэрри, Саманта, Шарлотта или Миранда?

Psychologies
Поупражнялись в girl math и съели girl dinner: как «девчачий ужин» и «девчачья математика» стали мемами Поупражнялись в girl math и съели girl dinner: как «девчачий ужин» и «девчачья математика» стали мемами

Что за тренд с girl/boy появился в сети и так ли он безобиден, как кажется

Правила жизни
Только я! Только я!

Что такое эгоцентризм и как его распознать

Лиза
Что такое «День жестянщика», когда он наступит и как к нему подготовиться Что такое «День жестянщика», когда он наступит и как к нему подготовиться

«День жестянщика»: что это за день и что нужно делать?

РБК
«Порчу все, к чему прикасаюсь»: как детские травмы обесценивают успехи и достижения «Порчу все, к чему прикасаюсь»: как детские травмы обесценивают успехи и достижения

Глава из книги «Что знают мои кости» — о детских травмах

Forbes
Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему Влюбленные в облаках и со стертой памятью: фильмы Мишеля Гондри от худшего к лучшему

Все игровые фильмы одного из главных фантазеров современного кино Мишеля Гондри

Правила жизни
Стесняюсь спросить: главные мифы о лечении зубов Стесняюсь спросить: главные мифы о лечении зубов

Вместе с экспертом разбираем самые популярные мифы об уходе за зубами

Правила жизни
Секреты виноделов Секреты виноделов

Виноделы Севастополя убеждены, что именно здесь рождаются лучшие российские вина

Отдых в России
6 типажей, которые помогут распознать в ребенке будущего нарцисса 6 типажей, которые помогут распознать в ребенке будущего нарцисса

Специфические черты нарциссов могут начать проявляться уже в юном возрасте

Psychologies
Сонный паралич Сонный паралич

Что такое сонный паралич, почему возникает и можно ли избавиться

Лиза
Спасение утонувшего Спасение утонувшего

«Как заниматься сексом»: дежурная тинейджерская агитка

Weekend
Однажды в Ростове Однажды в Ростове

История одного особняка

Новый очаг
Устали быть «жилеткой» для друзей и близких? 3 совета, как это изменить Устали быть «жилеткой» для друзей и близких? 3 совета, как это изменить

Чрезмерное вовлечение в проблемы других людей может сыграть с вами дурную шутку

Psychologies
И я там был. Почему трудно забыть первую любовь И я там был. Почему трудно забыть первую любовь

Как забыть свою бывшую

СНОБ
Ваше здоровье, товарищ страна. Каким получился «Пациент №1» Резо Гигинеишвили? Ваше здоровье, товарищ страна. Каким получился «Пациент №1» Резо Гигинеишвили?

«Пациент №1» — кино мирового класса, разворачивающееся на фоне конца СССР

Правила жизни
10 шагов, которые нужно сделать, чтобы достичь внутреннего спокойствия в трудные времена и во время кризиса 10 шагов, которые нужно сделать, чтобы достичь внутреннего спокойствия в трудные времена и во время кризиса

10 шагов, которые помогут сохранить самообладание в трудные времена

Inc.
Круг счастливых Круг счастливых

Как предприниматель Борис Акимов организовал сообщество счастливых людей

Новый очаг
Минус 100 кг и новая жизнь Минус 100 кг и новая жизнь

За полтора года блогер Алиса Дубровская похудела более чем на 100 кг

Новый очаг
Пропаганда насилия и кража образа Линдси Лохан. В чем обвиняли создателей GTA Пропаганда насилия и кража образа Линдси Лохан. В чем обвиняли создателей GTA

Скандалы вокруг серии игр Grand Theft Auto

СНОБ
Красота заменит думскроллинг Красота заменит думскроллинг

Как взаимодействие с нейросетями может скрасить ваши будни

ТехИнсайдер
«Главное — это вера и огромное терпение» «Главное — это вера и огромное терпение»

Диана Мирошникова рассказала о воспитании музыкой и знаковых встречах

OK!
Спасение внутреннего ребенка. О новом фильме Мишеля Гондри «Книга решений» Спасение внутреннего ребенка. О новом фильме Мишеля Гондри «Книга решений»

Каким получился новый фильм «Книга решений» Мишеля Гондри

СНОБ
5 самых популярных запросов, с которыми женщины идут к психологам 5 самых популярных запросов, с которыми женщины идут к психологам

Проблемы, за решением которых женщины обращаются к специалистам чаще всего

Psychologies
Зима близко Зима близко

Чем раньше мы готовимся к горнолыжному сезону, тем лучше он пройдет!

Лиза
Ожирение при нехватке лептина полечили моноклональными антителами Ожирение при нехватке лептина полечили моноклональными антителами

Моноклональныхе антитела помогли при лечении ожирения и липодистрофии

N+1
Открыть в приложении