Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Облака над сушей уменьшили нисходящее длинноволновое излучение Облака над сушей уменьшили нисходящее длинноволновое излучение

Еще один природный механизм, противостоящий потеплению

N+1
Палеоантропологи нашли окаменевшую поясницу австралопитека седиба Палеоантропологи нашли окаменевшую поясницу австралопитека седиба

Палеоантропологи обнаружили пять окаменевших поясничных позвонков австралопитека

N+1
Панацея от старения или вредный миф: что ученые говорят об опасности антиоксидантов Панацея от старения или вредный миф: что ученые говорят об опасности антиоксидантов

Насколько антиоксиданты безопасны и существует ли у них будущее?

Forbes
Как понять, что аромат тебе не подходит: 5 правил, которые помогут выбрать духи Как понять, что аромат тебе не подходит: 5 правил, которые помогут выбрать духи

Осознать, что парфюм тебе не очень подходит, действительно сложно

Cosmopolitan
Новое открытие в нейробиологии: ученые разобрались, как на самом деле работает память Новое открытие в нейробиологии: ученые разобрались, как на самом деле работает память

Какой процесс играет ключевую роль в том, как хранятся воспоминания?

Inc.
Роберт Сапольски: «У человечества есть огромный фетиш — свобода воли» Роберт Сапольски: «У человечества есть огромный фетиш — свобода воли»

Роберт Сапольски — о том, как любовь и жизнь существуют в рамках свободы воли

Forbes Life
«Великая зеленая стена» в Африке окупится за 10 лет «Великая зеленая стена» в Африке окупится за 10 лет

«Великая зеленая стена» в Африке однажды станет прибыльной

N+1
Как улучшить свою жизнь за 10 дней Как улучшить свою жизнь за 10 дней

Вот что можно успеть сделать для формирования привычки уже за десять дней

Psychologies
Дедвлей, Намибия Дедвлей, Намибия

Пятачок, на котором встретились сразу несколько природных аномалий и подружились

Maxim
Фрагменты Врубеля Фрагменты Врубеля

Путеводитель по самой большой выставке художника за последние 65 лет

Weekend
Темные пятна и светлые головы: 5 увлекательных книг по истории России Темные пятна и светлые головы: 5 увлекательных книг по истории России

Книги, которые помогут составить объективную картину прошлого России

Популярная механика
Считаем, сколько заработали участники турнира UFC 268 Считаем, сколько заработали участники турнира UFC 268

Участники турнира UFC 268 выбили 268 578 680 рублей

Maxim
Незаконнорожденный мой сын Незаконнорожденный мой сын

Дэмиен Херли строил планы на деньги своего отца, но тут в дело вмешался дедушка

Tatler
Сёстры Кривошляповы: страшная судьба первых сиамских близнецов в СССР Сёстры Кривошляповы: страшная судьба первых сиамских близнецов в СССР

Сестры Кривошляповы прожили рекордно долгую для сиамских близнецов жизнь

VOICE
Оно тебе НАDО (но это не точно) Оно тебе НАDО (но это не точно)

Самые необычные сексшоп-тренды

Playboy
6 взъерошенных фактов о волосах 6 взъерошенных фактов о волосах

Когда фраза «человек — венец творения» кажется не такой уж бесспорной

Maxim
Сергей Долмов: Как бороться с пьяными водителями Сергей Долмов: Как бороться с пьяными водителями

Пьяные водители стали самым настоящим бичом российских автодорог

СНОБ
Сьюки-любовь Сьюки-любовь

Сьюки Уотерхаус рассказала о том, как начала просто петь

Harper's Bazaar
Сценарий, написанный жизнью Сценарий, написанный жизнью

Иной раз жизнь выдаёт такие «коленца», что сценаристам остаётся лишь записывать

Дилетант
Как модный блогер Эмбер Венц Бокс заработала $315 млн и конкурирует с Instagram Как модный блогер Эмбер Венц Бокс заработала $315 млн и конкурирует с Instagram

Как бережное отношение к людям помогло Эмбер Венц Бокс привлечь финансирование

Forbes
Герметичные миры Уэса Андерсона: гид по визуальным особенностям его фильмов Герметичные миры Уэса Андерсона: гид по визуальным особенностям его фильмов

Стиль режиссера Уэса Андерсона и его истоки

Esquire
«Счастье — это реальность минус ожидания». Интервью о психологии семьи «Счастье — это реальность минус ожидания». Интервью о психологии семьи

Автор книги «Поколение "сэндвич"» — о счастье и языке между поколениями

РБК
А точно ли горько? 3 истории, когда свадьба пошла не по плану А точно ли горько? 3 истории, когда свадьба пошла не по плану

Сюрпризы на праздник бывают такими разными

Playboy
Мужчина года: Евгений Чебатков Мужчина года: Евгений Чебатков

Это год Чебаткова, сумевшего объединить Казахстан и Россию, рэп и стендап

Glamour
Мои корешки: известные ученые и исследователи — о книгах, перевернувших их жизнь Мои корешки: известные ученые и исследователи — о книгах, перевернувших их жизнь

Ученые рассказывают о книгах, которые изменили их жизнь

Esquire
Сколько свободного времени нам нужно для счастья Сколько свободного времени нам нужно для счастья

Какое оптимальное количество свободного времени в сутках?

Psychologies
Зачем на каждый Новый год наряжают ёлку? Зачем на каждый Новый год наряжают ёлку?

Откуда взялась мода украшать на Новый Год и Рождество хвойные деревья

Cosmopolitan
«Вытаскивала их руками!» Женщина сама удалила нити после неудачной подтяжки лица «Вытаскивала их руками!» Женщина сама удалила нити после неудачной подтяжки лица

История Барбары, которая чуть не изуродовала себе лицо

Cosmopolitan
Автор года: Катерина Гордеева Автор года: Катерина Гордеева

Мы узнали, в каких тонах Катерина Гордеева видит будущее российского YouTube

Glamour
Почему шумит в ушах? Что это за симптом и как его лечить Почему шумит в ушах? Что это за симптом и как его лечить

Почему возникает шум в ушах и нужно ли обращаться с ним к врачу?

РБК
Открыть в приложении