Нейросеть озвучила беззвучную игру на фортепиано
Американские разработчики создали алгоритм, который наблюдает за беззвучным видео игры на фортепиано и синтезирует восстановленный звук. Статья была представлена на конференции NeurIPS 2020.
Звук, производимый музыкальным инструментом во время исполнения мелодии, складывается из множества параметров: особенностей самого инструмента, исполняемой композиции, особенностей движений музыканта во время игры. Зная, как звучит конкретный музыкальный инструмент, человеку или алгоритму должно быть достаточно видеозаписи игры на нем, чтобы достаточно точно восстановить получающийся звук, но фактически разработчики компьютерных алгоритмов для этой задачи сталкиваются с трудностями.
Разработчики из Вашингтонского университета под руководством Эли Шлицермана (Eli Shlizerman) создали алгоритм для озвучивания игры на фортепиано, который учитывает не только сам факт нажатия клавиш, но и продолжительность. Алгоритм состоит из трех основных частей и они работают следующим образом. Сначала алгоритм Video2Roll получает на вход по пять последовательных кадров из видеозаписи, на которой сверху снята клавиатура и кисти рук музыканта. Этот алгоритм основан на сверточной нейросети ResNet18 и дополнен модулем внимания, позволяющими ему с большей вероятностью замечать нажатые клавиши, которые занимают лишь очень небольшую долю от всего кадра, и обучаемым корреляционным модулем, который позволяет