Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Ким Ир Сен: Вождь по воле случая» «Ким Ир Сен: Вождь по воле случая»

Как будущий правитель КНДР стал партизаном

N+1
Систематизируй! Почему заметки — это самый простой способ справиться с прокрастинацией и стать суперпродуктивными Систематизируй! Почему заметки — это самый простой способ справиться с прокрастинацией и стать суперпродуктивными

Отрывок из книги Зонке Аренс «Как делать полезные заметки»

Inc.
У берегов Сингапура нашли 3,5 тонны средневековой китайской посуды У берегов Сингапура нашли 3,5 тонны средневековой китайской посуды

С давних времен остров Сингапур выступал важным перевалочным пунктом для моряков

N+1
Темные пятна и светлые головы: 5 увлекательных книг по истории России Темные пятна и светлые головы: 5 увлекательных книг по истории России

Книги, которые помогут составить объективную картину прошлого России

Популярная механика
Психология влияния Психология влияния

Как не стать жертвой мастера влияния и убеждения

kiozk originals
Семь советов, чтобы похудеть к Новому году Семь советов, чтобы похудеть к Новому году

Как легко похудеть на 5-6 килограмм?

Здоровье
Что такое аромарасчесывание и как оно избавляет от перхоти и выпадения волос Что такое аромарасчесывание и как оно избавляет от перхоти и выпадения волос

Аромарасчесывание сделает уход за волосами еще более полезным и эффективным

Cosmopolitan
От корки до корки: 11 книг на длинные выходные От корки до корки: 11 книг на длинные выходные

11 свежих книг — от истории до современной прозы

Esquire
Одна вокруг света: камень размером с гору и разноцветный город Одна вокруг света: камень размером с гору и разноцветный город

148-я серия о кругосветном путешествии москвички Ирины Сидоренко: Колумбия

Forbes
Не только мужское либидо: зачем тестостерон нужен людям обоих полов Не только мужское либидо: зачем тестостерон нужен людям обоих полов

Гормон тестостерон — герой множества мифов

РБК
Кадровый город: как устойчивая городская среда помогает бизнесу Кадровый город: как устойчивая городская среда помогает бизнесу

Чем комфортнее город, тем вероятнее компания решит проблему дефицита кадров

Forbes
Во имя сына: каким получился новый альбом Адель «30» Во имя сына: каким получился новый альбом Адель «30»

Как сделана пластинка Адель «30», сумела ли певица оправдать ожидания?

Esquire
«Купил Кайен, а на ОСАГО денег нет». Кто раздражает инспекторов ГИБДД «Купил Кайен, а на ОСАГО денег нет». Кто раздражает инспекторов ГИБДД

Что раздражает инспекторов ГИБДД на дороге и как отучить автомобилистов нарушать

РБК
Что вызвало самое первое массовое вымирание на Земле: мнение ученых Что вызвало самое первое массовое вымирание на Земле: мнение ученых

Самое первое вымирание длилось от полумиллиона до двух миллионов лет

Популярная механика
Говори или проиграешь: как убедить любого в чем угодно — советы бывшего секретного агента Говори или проиграешь: как убедить любого в чем угодно — советы бывшего секретного агента

Отрывок из книги Эви Пумпурас о том, как научиться убеждать

Inc.
Прилежный ученик Прилежный ученик

Иван Стрешинский стал первым в России менеджером-миллиардером

Forbes
Быстрее, выше, сильнее, беспилотнее. В каком спорте соревнуются беспилотные автомобили Быстрее, выше, сильнее, беспилотнее. В каком спорте соревнуются беспилотные автомобили

Какие у беспилотников есть состязания и как выбирают победителя?

Популярная механика
Цифровой этикет, текстовый блокчейн и соцсети в политике: новые навыки для работы в интернетее Цифровой этикет, текстовый блокчейн и соцсети в политике: новые навыки для работы в интернетее

5 книг о том, как ориентироваться в современном цифровом пространстве

Популярная механика
Почему принимать лекарства с истекшим сроком годности опасно Почему принимать лекарства с истекшим сроком годности опасно

Что делать когда у лекарства истек срок годности, а оно еще не израсходовано?

Популярная механика
Путь розы: как устроены крупнейшие цветочные аукционы Путь розы: как устроены крупнейшие цветочные аукционы

Отрывок из книги Эми Стюарт «Путь розы» о цветочном бизнесе

Forbes
Как проверить авто на залог: все возможные способы и инструкции Как проверить авто на залог: все возможные способы и инструкции

Как проверить автомобиль перед покупкой и случайно не взять на себя обременения?

РБК
Белые совы впервые добрались до Испании Белые совы впервые добрались до Испании

Белые совы склонны к далеким путешествиям

N+1
Что смотреть после «Игры в кальмара» Что смотреть после «Игры в кальмара»

Пока не вышел второй сезон «Игры в кальмара», можно найти близкие по духу шоу

Weekend
Серебряная экономика Серебряная экономика

Проблема эйджизма в российском обществе и бизнесе

Forbes Life
Главный сенсор: как устроен лидар «Яндекс» для беспилотных автомобилей Главный сенсор: как устроен лидар «Яндекс» для беспилотных автомобилей

«Яндекс» перевел свой флот беспилотных автомобилей на собственные лидары

VC.RU
Почему Иуду изображают в желтом? Отрывок из новой книги Мишеля Пастуро Почему Иуду изображают в желтом? Отрывок из новой книги Мишеля Пастуро

В своей новой книге Мишель Пастуро рассказывает о желтом цвете

СНОБ
Вес слова Вес слова

Если карьера не задалась, у вас есть реальный шанс стать преуспевающим спикером

Forbes
Одностороннее движение: как понять, что ваша дружба больше не взаимна Одностороннее движение: как понять, что ваша дружба больше не взаимна

Ваша дружба похожа на равноценный обмен или это давно уже «игра в одни ворота»?

Psychologies
«Мы забираем документы»: когда пора менять школу? «Мы забираем документы»: когда пора менять школу?

Иногда родителям приходится задуматься: а комфортно ли ребенку на учебе?

Psychologies
PodRide: самый крутой электробайк или самый странный электромобиль PodRide: самый крутой электробайк или самый странный электромобиль

"Электрокар" весом в 70 кг имеет гибридную схему: в нем есть педали и мотор

CHIP
Открыть в приложении