Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Клопы использовали химическую сигнализацию пчел для охоты на них самих Клопы использовали химическую сигнализацию пчел для охоты на них самих

Клопы-хищнецы научились обманывать жертв, заманивая их в ловушку

N+1
Тракторист-шахтер: что известно о владельце шахты «Листвяжная» Тракторист-шахтер: что известно о владельце шахты «Листвяжная»

Как Федяев прошел путь от тракториста до угольного магната и миллиардера

Forbes
Нашу ближайшую соседку галактику Малое Магелланово Облако рвет на части Нашу ближайшую соседку галактику Малое Магелланово Облако рвет на части

Притяжение Большого Магелланова Облака может разрывать Малое Облако на части

ТехИнсайдер
Как перестать беспокоиться о том, что думают другие Как перестать беспокоиться о том, что думают другие

Как перестать волноваться из-за мнений окружающих по поводу вашей персоны

Psychologies
Древние и красивые: 5 важных археологических памятников Древние и красивые: 5 важных археологических памятников

Самые впечатляющие и ценнейшие археологические памятники

ТехИнсайдер
20 способов изменить жизнь прямо сейчас 20 способов изменить жизнь прямо сейчас

Вот что можно сделать уже сегодня

Psychologies
Кто и когда изобрёл ластик Кто и когда изобрёл ластик

Как только человек овладел письмом, ему понадобился инструмент для стирания

Популярная механика
Как съесть радугу и похудеть: что нужно знать о диете по цвету продуктов Как съесть радугу и похудеть: что нужно знать о диете по цвету продуктов

Каноны разноцветной диеты, которая обеспечит тебе цветущий вид

Cosmopolitan
Как токсичная гарь ДВС превращается в запах фиалок Как токсичная гарь ДВС превращается в запах фиалок

Разбираемся в машинерии, которая превращает токсичные выхлопы ДВС в запах фиалок

Популярная механика
Почему Иуду изображают в желтом? Отрывок из новой книги Мишеля Пастуро Почему Иуду изображают в желтом? Отрывок из новой книги Мишеля Пастуро

В своей новой книге Мишель Пастуро рассказывает о желтом цвете

СНОБ
Учитель и безопасность школьников. Как защитить детей от самих себя Учитель и безопасность школьников. Как защитить детей от самих себя

Как бороться с травлей в школе и что могут сделать учителя?

СНОБ
Что нам делать с моногамией Что нам делать с моногамией

Почему иногда лучше попробовать, чем долго сомневаться

GQ
Прилежный ученик Прилежный ученик

Иван Стрешинский стал первым в России менеджером-миллиардером

Forbes
Василий Кандинский. Голос сердца Василий Кандинский. Голос сердца

Эти предзакатные минуты в Москве Василий Васильевич всегда особенно любил

Караван историй
Вопрос FORM: кто делает архитектурные проекты для «Гаража» и «Детского мира» Вопрос FORM: кто делает архитектурные проекты для «Гаража» и «Детского мира»

Как работает бюро FORM, проектирующее здания и интерьеры по всему миру

Forbes
Почему нас раздражает собственный голос в записи? Почему нас раздражает собственный голос в записи?

Нам не нравится свой голос в записи, потому что мы не узнаем себя

Cosmopolitan
Игрушки с перспективой: на что способны новейшие квантовые компьютеры Игрушки с перспективой: на что способны новейшие квантовые компьютеры

Квантовые компьютеры с принципиально новыми характеристиками

Forbes
Как сформулировать запрос к психологу Как сформулировать запрос к психологу

Первый шаг в преодолении трудностей — формулировка психологического запроса

Psychologies
В Германии раскопали средневековый некрополь для прокаженных В Германии раскопали средневековый некрополь для прокаженных

Археологи нашли некрополь для тяжелобольных

N+1
Как ученым удалось вырастить клетки сердца и мозга без помощи генетики Как ученым удалось вырастить клетки сердца и мозга без помощи генетики

Ученые заставили соединительную ткань превратиться в сердце и нейроны

Популярная механика
В главных ролях В главных ролях

Такое чувство, что Любовь Аксёнова никогда не отдыхает от кино

Cosmopolitan
Дима Сыендук – о Достоевском, российской хтони и адаптации классики под современность Дима Сыендук – о Достоевском, российской хтони и адаптации классики под современность

Актер озвучки Дима Сыендук — о классике, озвучке и «Рика и Морти»

GQ
Эффект Манделы и другие искажения памяти: психолог о том, почему с нами это случается Эффект Манделы и другие искажения памяти: психолог о том, почему с нами это случается

Ты тоже иногда думаешь, что закончил универ "только вчера"?

Playboy
Эксперт института дизайна Стэнфорда назвал три упражнения, чтобы повысить свою креативность Эксперт института дизайна Стэнфорда назвал три упражнения, чтобы повысить свою креативность

Креативность как мускул — чем больше его напрягать, тем больше он укрепляется

Inc.
Homo sapiens vs Homo neanderthalensis: почему победитель только один Homo sapiens vs Homo neanderthalensis: почему победитель только один

Что могло стать причиной исчезновения неандертальцев

Популярная механика
Оксимирон против Гнойного: весь баттл в 20 цитатах Оксимирон против Гнойного: весь баттл в 20 цитатах

Самые броские цитаты из рэп-поединка Оксимирона и Славы КПСС

Esquire
Несбывшееся будущее: как NASA видело гражданскую авиацию в 2025 году Несбывшееся будущее: как NASA видело гражданскую авиацию в 2025 году

Как в 1996 году NASA видело будущее гражданских самолетов

Популярная механика
Мой сладкий Мой сладкий

Лучший шеф-повар России опять готовит на Новый год медовик. Но по-новому

Tatler
Бить за чизбургер — плохо, бить чизбургером — приемлемо: как учёные обучают искусственный интеллект этическим нормам Бить за чизбургер — плохо, бить чизбургером — приемлемо: как учёные обучают искусственный интеллект этическим нормам

О трудностях обучения роботов

VC.RU
Как происходит процедура опознания. Отрывок из книги судмедэксперта Как происходит процедура опознания. Отрывок из книги судмедэксперта

Фрагмент из книги судмедэксперт Мэри Кэссиди «Место преступления – тело»

СНОБ
Открыть в приложении