Scientific and analytical journal «Vestnik Saint-Petersburg university of State fire service of EMERCOM of Russia»

Научно-аналитический журнал "Вестник Санкт-Петербургского университета ГПС МЧС России"

2218-130X

112094

10.61260/2218-130X-2025-4-72-81

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

INFORMATICS, COMPUTER ENGINEERING AND CONTROL

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

PROBLEM ISSUES IN USING LARGE LANGUAGE MODELS FOR DECOMPILATION OF MACHINE CODE WITH VULNERABILITIES

ПРОБЛЕМНЫЕ ВОПРОСЫ ПРИМЕНЕНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ДЛЯ ДЕКОМПИЛЯЦИИ МАШИННОГО КОДА С УЯЗВИМОСТЯМИ

https://orcid.org/0000-0002-9412-5693

Израилов

Константин Евгеньевич

Izrailov

Konstantin E.

konstantin.izrailov@mail.ru

кандидат технических наук;

candidate of technical sciences;

Санкт-Петербургский университет ГПС МЧС России Россия Saint-Petersburg university of State fire service of EMERCOM of Russia Russian Federation

24 12 2025

2025 4 72 81 24 10 2025 23 11 2025

https://journals.igps.ru/en/nauka/article/112094/view

Работа посвящена проблеме наличия уязвимостей в программном обеспечении в условиях отсутствия исходного кода, одним из путей противодействия которым является декомпиляция машинного (выполняемого) кода программ. Рассмотрено применение относительной новой технологии больших языковых моделей для решения данной задачи по восстановлению псевдоисходного кода, подходящего для обнаружения и устранения уязвимостей. Выявлены такие проблемные вопросы предметной области, как неполнота датасета для редких процессорных архитектур, отсутствие гарантии тождественности полученного исходного кода заданному машинному, санация восстанавливаемого исходного кода путем исправления уязвимостей, галлюцинирование в коде и сложность восстановления обфусцированного (в том числе оптимизированного) кода. Для обоснования и демонстрации сути каждого проблемного вопроса приведен практический пример по декомпиляции функций ассемблерного кода с помощью распространенной большой языковой модели DeepSeek-V3.2. Указано негативное влияние проблемных вопросов на итоговую нейтрализацию уязвимостей.

This paper examines the problem of software vulnerabilities in the absence of source code. One way to counter them is by decompilation the machine (executable) code of programs. The paper considers the application of a relatively new technology, large language models, to the task of restoring pseudo-source code suitable for detecting and eliminating vulnerabilities. The paper identifies problematic issues in the subject area, such as the incompleteness of the dataset for rare processor architectures, the lack of a guarantee that the obtained source code is identical to the specified machine code, the sanitization of the recovered source code by fixing vulnerabilities, hallucinations in the code, and the difficulty of restoring obfuscated (including optimized) code. To substantiate and demonstrate the essence of each problematic issue, a practical example of decompilation assembly code functions using the widespread large language model DeepSeek-V3.2 is provided. The negative impact of these problematic issues on the final neutralization of vulnerabilities is also indicated.

безопасность программного обеспечения уязвимости реверс-инжиниринг декомпиляция искусственный интеллект проблемные вопросы

software security vulnerabilities reverse engineering decompilation artificial intelligence problem issues

Касперски К. Техника отладки программ без исходных текстов. СПб.: БХВ-Петербург, 2005. 832 с.

Kasperski K. Tekhnika otladki programm bez iskhodnyh tekstov. SPb.: BHV-Peterburg, 2005. 832 s.

Аешин И.Т. Реверс-инжиниринг программного продукта с использованием IDA Pro // Актуальные проблемы авиации и космонавтики. 2018. Т. 3. № 4 (14). С. 808‒809.

Aeshin I.T. Revers-inzhiniring programmnogo produkta s ispol'zovaniem IDA Pro // Aktual'nye problemy aviacii i kosmonavtiki. 2018. T. 3. № 4 (14). S. 808‒809.

Израилов К.Е. Алгоритмизация машинного кода телекоммуникационных устройств как стратегическое средство обеспечения информационной безопасности // Национальная безопасность и стратегическое планирование. 2013. № 2 (2). С. 28–36.

Izrailov K.E. Algoritmizaciya mashinnogo koda telekommunikacionnyh ustrojstv kak strategicheskoe sredstvo obespecheniya informacionnoj bezopasnosti // Nacional'naya bezopasnost' i strategicheskoe planirovanie. 2013. № 2 (2). S. 28–36.

Shin E.C.R., Song D., Moazzezi R. Recognizing functions in binaries with neural networks // The proceedings of 24th USENIX Conference on Security Symposium. Washington, 2015. P. 611‒626.

Израилов К.Е. Генетический реверс-инжиниринг программ для поиска уязвимостей // Научно-аналитический журнал «Вестник Санкт-Петербургского университета Государственной противопожарной службы МЧС России». 2025. № 1. С. 109–119. DOI: 10.61260/2218-130X-2025-1-109-119.

Izrailov K.E. Geneticheskij revers-inzhiniring programm dlya poiska uyazvimostej // Nauchno-analiticheskij zhurnal «Vestnik Sankt-Peterburgskogo universiteta Gosudarstvennoj protivopozharnoj sluzhby MCHS Rossii». 2025. № 1. S. 109–119. DOI: 10.61260/2218-130X-2025-1-109-119.

LLM4Decompile: Decompiling Binary Code with Large Language Models / H. Tan [et al.] // The proceeding of Conference on Empirical Methods in Natural Language Processing. Miami, 2024. P. 3473–3487. DOI: 10.18653/v1/2024.emnlp-main.203.

Израилов К.Е. Концепция генетической декомпиляции машинного кода телекоммуникационных устройств // Труды учебных заведений связи. 2021. Т. 7. № 4. С. 10‒17. DOI: 10.31854/1813-324X-2021-7-4-95-109.

Izrailov K.E. Koncepciya geneticheskoj dekompilyacii mashinnogo koda telekommunikacionnyh ustrojstv // Trudy uchebnyh zavedenij svyazi. 2021. T. 7. № 4. S. 10‒17. DOI: 10.31854/1813-324X-2021-7-4-95-109.

Yin X., Ni C., Wang S. Multitask-Based Evaluation of Open-Source LLM on Software Vulnerability // Transactions on Software Engineering. Vol. 50. № 11. P. 3071–3087. DOI: 10.1109/TSE.2024.3470333.

Galadima H.S., Doherty C., Brennan R. Towards LLM-based Synthetic Dataset Generation of Cyber Incident Response Process Logs // The proceedings of Cyber Research Conference. Carlow, 2024. P. 1–4. DOI: 10.1109/Cyber-RCI60769.2024.10939563.

10.

Calatayud B.M., Meany L. A comparative analysis of Buffer Overflow vulnerabilities in High-End IoT devices // The proceedings of 12th Annual Computing and Communication Workshop and Conference. Las Vegas, 2022. P. 0694–0701. DOI: 10.1109/CCWC54503.2022.9720884.

11.

Комашко М.Н. ChatGPT, текст, информация: критический анализ // Труды по интеллектуальной собственности. 2024. Т. 50. № 3. С. 118–128. DOI: 10.17323/tis.2024.22306.

Komashko M.N. ChatGPT, tekst, informaciya: kriticheskij analiz // Trudy po intellektual'noj sobstvennosti. 2024. T. 50. № 3. S. 118–128. DOI: 10.17323/tis.2024.22306.

12.

Милушев Э.Х., Батунин Я.В., Попов А.А. Методы обфускации кода: сравнительный анализ // Наукосфера. 2025. № 5-2. С. 1–6. DOI: 10.5281/zenodo.15574433.

Milushev E.H., Batunin Ya.V., Popov A.A. Metody obfuskacii koda: sravnitel'nyj analiz // Naukosfera. 2025. № 5-2. S. 1–6. DOI: 10.5281/zenodo.15574433.

13.

Израилов К.Е. Проблемные вопросы генетической деэволюции представлений программы для поиска в них уязвимостей и рекомендации по их разрешению // Труды учебных заведений связи. 2025. Т. 11. № 1. С. 84–98. DOI: 10.31854/1813-324X-2025-11-1-84-98.

Izrailov K.E. Problemnye voprosy geneticheskoj deevolyucii predstavlenij programmy dlya poiska v nih uyazvimostej i rekomendacii po ih razresheniyu // Trudy uchebnyh zavedenij svyazi. 2025. T. 11. № 1. S. 84–98. DOI: 10.31854/1813-324X-2025-11-1-84-98.