После прочтения сжечь: Positive Technologies научила нейросеть читать файлы как текст

Роман Рожков

Positive Technologies первой в России и Европе разработала нейросеть ByteDog для обнаружения вредоносного кода, узнал Forbes. В отличие от классических моделей, ByteDog работает не с текстом или изображениями, а анализирует и понимает файлы как они есть — в виде байтов, что позволяет точнее находить опасный софт. Компания планирует интегрировать разработку в свои решения, в том числе антивирусные, на рынок которых она вышла в конце 2025 года. Для нейросетей определение потенциальной вредоносной активности по-прежнему остается серьезным вызовом, говорят аналитики, добавляя, что идея не новая, но очень перспективная, нюансы — в реализации.

Чтение — вот лучшее учение

Positive Technologies (РТ) разработала первую в России и Европе нейросеть для обнаружения вредоносного кода, основанную на архитектуре «трансформер», которую используют LLM (большие языковые модели), рассказали Forbes в компании. Ее принципиальное отличие от классических моделей в том, что ByteDog, как назвали в РТ свою нейросеть, работает не с текстом или изображениями, а анализирует и понимает файлы как они есть — в виде байтов.

ИИ давно применяется в кибербезопасности, но до сих пор требовал ручной подготовки данных под каждый новый вид вирусов, поясняют в компании: разметчики извлекали из файлов признаки, по которым нейросети учились отличать вредоносный код от обычного.

ByteDog убирает этот этап. После обучения модель анализирует байты файла напрямую — в том же виде, как они хранятся на ПК, смартфоне, в облаке или интернете. Обученная, как уточняют в РТ, на нескольких миллионах параметрах, ByteDog способна сама учиться находить закономерности, экстраполировать их и обнаруживать угрозы, которые ранее не встречались в данных: «Этим она превосходит системы, основанные на жестких, фиксированных правилах. Примерно так же LLM учатся понимать текст, не зная заранее грамматических правил: они обрабатывают последовательности символов и выстраивают внутренние представления о структуре языка. Только вместо слов и предложений здесь обычные файлы».

Представим, что сотрудник получает по электронной почте файл, который выглядит как счет от подрядчика, но сам вирус скрыт внутри файла, приводят в РТ один из примеров работы модели. «Чтобы его обнаружить классическими методами, антивирусу нужно совершить несколько операций, которые занимают время: распаковать файл, извлечь исходный код, пропустить данные через фиксированные антивирусные правила, — поясняют в компании. — ByteDog, работая на устройстве сотрудника, пропускает все эти шаги и видит файл так же, как операционная система — последовательностью байтов. Если в этой последовательности есть признаки, характерные для вредоносного кода, модель их обнаружит, даже если вирусы спрятаны сложным способом».

Главная техническая сложность при разработке — длина входных данных. Так, если LLM работает в среднем с контекстом до 128 000 токенов, то обычный файл — это мегабайты, то есть миллионы байт, ни один из которых нельзя пропустить, говорят в РТ. Для решения этой проблемы модель анализирует файлы фрагментами, а затем собирает общую картину. ByteDog спроектирована так, что для применения уже обученной модели не нужен графический ускоритель и она может работать на устройствах пользователей — ПК и смартфонах.