Применение языковых нейросетевых моделей для обнаружения вредоносного программного обеспечения

Дудкин Д.М.; Кузнецов М.А.; Авдосев Н.Г.; Шабаловский В.А.; Егунов В.А.

Дудкин Д.М., Кузнецов М.А., Авдосев Н.Г., Шабаловский В.А., Егунов В.А.

Дата поступления статьи: 10.05.2024

Растущая популярность больших языковых моделей в различных сферах научной и индустриальной деятельности приводит к появлению решений, применяющих эти технологий для совершенно разных задач. В данной статье предлагается использовать языковые модели BERT, GPT и GPT-2 для обнаружения вредоносного программного кода. Предварительно обученная на естественных текстах нейросетевая модель дообучается на предобработанном датасете, содержащим программные файлы с вредоносным и безвредным кодом. Предобработка датасета заключается в том, что программные файлы в виде машинных инструкций транслируется в текстовое описание на формализованном языке. Дообученная таким образом модель используется для задачи классификации программного обеспечения на основе признака содержания в нем вредоносного кода. В статье приводится информация о проведенном эксперименте по использованию предложенной модели. Оценивается качество применения такого подхода в сравнении с существующими антивирусными технологиями. Предлагаются также пути улучшения характеристик модели.

Ключевые слова: антивирус, нейросеть, языковые модели, вредоносный код, машинное обучение, дообучение моделей, тонкая настройка, BERT, GPT, GPT-2

2.3.1 - Системный анализ, управление и обработка информации

2.3.6 - Методы и системы защиты информации, информационная безопасность