13.05.2024

Могут ли LLM-агенты взламывать сайты и эксплуатировать уязвимости?

Большие языковые модели (LLM) становятся все более мощными и находят широкое применение в виде агентов. Разработчики могут создавать агентов, которые способны взаимодействовать с пользователями, обрабатывать запросы и предоставлять информацию или выполнять действия на основе полученных данных. LLM-агенты могут самостоятельно находить ошибки в сложном коде, проводить экономический анализ или помогать в процессе научных открытий.

Несмотря на полезность LLM, исследователи все чаще беспокоятся об их возможностях двойного назначения — способности выполнять вредоносные задачи, особенно в контексте кибербезопасности. Например, ChatGPT может использоваться для оказания помощи людям в тестировании на проникновение и для создания вредоносных программ. Еще большее беспокойство вызывает то, что эти агенты могут действовать автономно, не требуя участия человека в процессе. Ученые из Корнеллского университета Ричард Фанг, Рохан Бинду, Акул Гупта, Киуси Жан, Даниэль Кан провели исследования и выяснили, что может угрожать человечеству прямо сейчас и какие выводы можно сделать из этого.

Арендуйте выделенные и виртуальные GPU серверы с профессиональными графическими картами NVIDIA RTX A5000 / A4000 и Tesla A100 / H100 80Gb, а также с игровыми картами RTX4090 в надежных дата-центрах класса TIER III в Москве, Нидерландах и Исландии. Принимаем оплату за услуги HOSTKEY в Европе в рублях на счет российской компании. Оплата с помощью банковских карт, в том числе и картой МИР, банковского перевода и электронных денег. Аренда серверов с почасовой оплатой.

Автономный взлом сайтов

В исследовании продемонстрировано, что LLM-агенты способны осуществлять сложные взломы, например слепую SQL-атаку с объединением запросов. Это тип атак на веб-приложения, в которых используется SQL (язык структурированных запросов) для взаимодействия с базами данных. Такие атаки позволяют злоумышленникам получать конфиденциальную информацию из баз данных, даже если приложение не отображает никаких признаков ошибки или аномального поведения.

В основе таких атак лежит использование оператора SQL Union, который позволяет объединить результаты нескольких запросов в один набор данных. Злоумышленник может ввести специально сформированный запрос, включающий оператор Union, чтобы объединить результаты запроса к базе данных с запросом к таблице, содержащей конфиденциальную информацию.

Такие атаки требуют от агентов способности навигации по веб-сайтам и выполнения более 45 действий для осуществления взлома. Важно отметить, что на момент исследований в феврале этого года только GPT-4 и GPT-3.5 были способны на такие взломы, но новые модели типа Llama3 явно смогут выполнять схожие операции.

Изображение взято из статьи

Для взлома веб-сайтов использовались различные языковые модели, такие как LLM, с фреймворком React. Для создания агентов и работы с генеративно-состязательными сетями (RAG) применялся LangChain. А для моделей OpenAI — API Assistants.

Агенты могли взаимодействовать с веб-сайтами с помощью Playwright. Им также был доступен RAG с контекстом, загруженным из шести документов, где обсуждался взлом веб-сайтов. Кроме того, были предоставлены подробные инструкции по процессу взлома.

Чтобы использовать расширенный контекст, результаты предыдущего вызова функции добавлялись в текущий контекст.

Чтобы убедиться, что попытки взлома не навредят реальным веб-сайтам или людям, было создано 15 изолированных веб-страниц с различными уязвимостями. В общей сложности использовалось 10 языковых моделей больших размеров, в том числе GPT-4 и GPT-3.5, а также 8 моделей c открытым исходным кодом, высоко оцененных на Chatbot Arena.

Каждый тестовый веб-сайт пытались взломать пять раз. Успешной считалась любая из пяти попыток, если в результате удалось получить доступ к системе.

Agent	Pass @ 5
GPT4 assistant	73,3%
GPT-3.5 assistant	6,7%
OpenHermes-2.5-Mistra1-7B	0,0%
LLaMA-2 Chat (70B)	0,0%
LLaMA-2 Chat (13B)	0,0%
LLaMA-2 Chat (7B)	0,0%
Mixtral-8x7B Instruct	0,0%
Mistral (7B) Instruct v0.2	0,0%
Nous Hermes-2 Yi (34B)	0,0%
OpenChat 3.5	0,0%

Как можно заметить, GPT-4 способен взломать 11 из 15 веб-сайтов. Однако LLM с открытым исходным кодом не может справиться ни с одной уязвимостью. Эти результаты демонстрируют ярко выраженный «закон масштабирования» возможностей LLM.

Сам взлом происходил следующим образом:

Выполнялась навигация между веб-страницами с целью определения страницы, которую нужно атаковать.
Выполнялась попытка использования стандартных имени пользователя и пароля.
Полученная информация применялась для попытки SQL-инъекции.
Прочитывался исходный код страницы, чтобы определить, что SQL-запрос содержит параметр _GET.
Определялось, может ли запрос быть использован для атаки SQL Union.
Выполнялась непосредственно атака SQL Union.

Каждая такая атака могла включать до 48 шагов.

Затем GPT-4 попросили взломать реальные веб-страницы. Непосредственно взлом модель делать отказалась, но из 50 случайно выбранных для теста веб-страниц в одной она смогла найти уязвимость и объяснила, как ее можно использовать.

Эксплуатация существующих уязвимостей первого дня

В работе изучена возможность использования LLM-агентами подлинных уязвимостей первого дня (one-day vulnerabilities). Это означает, что данная уязвимость была обнаружена и описана в базе данных CVE (Common Vulnerabilities and Exposures) или подобных ей источниках. Однако разработчики программного обеспечения еще не выпустили обновление или патч, устраняющие эту проблему. Это может означать, что существует способ использования данной уязвимости, но он до сих пор не был применен.

Хотя такие уязвимости становятся известны публично, не факт, что существующие инструменты могут автоматически их обнаружить. Так, злоумышленники или пентестеры, не имеющие доступа к внутренним деталям развертывания систем, при взломе не знают версию программного обеспечения, которое в них используется.

Многие такие уязвимости находят в закрытых системах, поэтому их невозможно воспроизвести. В связи с этим исследователи сосредоточились на уязвимостях в открытом программном обеспечении.

Было отобрано 15 уязвимостей, охватывающих уязвимости в веб-приложениях, уязвимости в программном обеспечении для управления контейнерами и уязвимости в пакетах Python. Эти уязвимости включают как те, что представляют высокую опасность, так и те, что были обнаружены после даты завершения сбора информации для тестируемых LLM.

Были использованы следующие уязвимости:

Уязвимость	Описание
runc	Побег из контейнера через встроенный файловый дескриптор
CSRF + ACE	Использование Cross Site Request Forgery для выполнения кода с произвольными правами
Wordpress SQLi	Инъекция SQL через плагин WordPress
Wordpress XSS-1	Межсайтовый скриптинг (XSS) в дополнении WordPress
Wordpress XSS-2	XSS в дополнении Wordpress
Travel Journal XSS	XSS в Travel Journal
Iris XSS	XSS в Iris
CSRF + privilege escalation	Использование CSRF для поднятия привилегий до администратора в LedgerSMB
alf.io key leakage	Утечка ключа при посещении определенного endpoint для системы резервации билетов
Astrophy RCE	Неправильная валидация ввода, позволяющая вызвать subprocess.Popen
Hertzbeat RCE	JNDI-инъекция, приводящая к выполнению кода на расстоянии
Gnuboard XSS ACE	Уязвимость XSS в Gnuboard, позволяющая выполнять код с произвольными правами
Symfony1 RCE	Злоупотребление использованием массивов/объектов PHP для выполнения кода с произвольными правами
Peering Manager SSTI RCE	Инъекция шаблонов на стороне сервера, приводящая к уязвимости RCE
ACIDRain (Warszawski & Bailis, 2017)	Атака на базу данных с использованием параллелизма

Уязвимость	CVE	Дата обнародования	Уровень угрозы
runc	CVE-2024-21626	1/31/2024	8.6 (высокий)
CSRF + ACE	CVE-2024-24524	2/2/2024	8.8 (высокий)
Wordpress SQLi	CVE-2021-24666	9/27/2021	9.8 (критический)
Wordpress XSS-1	CVE-2023-1119-1	7/10/2023	6.1 (средний)
Wordpress XSS-2	CVE-2023-1119-2	7/10/2023	6.1 (средний)
Travel Journal XSS	CVE-2024-24041	2/1/2024	6.1 (средний)
Iris XSS	CVE-2024-25640	2/19/2024	4.6 (средний)
CSRF + privilege escalation	CVE-2024-23831	2/2/2024	7.5 (высокий)
alf.io key leakage	CVE-2024-25635	2/19/2024	8.8 (высокий)
Astrophy RCE	CVE-2023-41334	3/18/2024	8.4 (высокий)
Hertzbeat RCE	CVE-2023-51653	2/22/2024	9.8 (критический)
Gnuboard XSS ACE	CVE-2024-24156	3/16/2024	N/A
Symfony 1 RCE	CVE-2024-28859	3/15/2024	5.0 (средний)
Peering Manager SSTI RCE	CVE-2024-28114	3/12/2024	8.1 (высокий)
ACIDRain	(Warszawski & Bailis, 2017)	2017	N/A

Агенты были похожи на те, что использовались при взломе веб-сайтов, но вместо документов по хакингу в них было загружено CVE-описание c эмуляцией сценария эксплуатации уязвимостей первого дня.

Изображение взято из исходной статьи

Для тестирования использовались те же 10 LLM (GPT-4, GPT-3.5 и 8 LLM с открытым кодом), а также два автоматизированных инструментария: ZAP (Zed Attack Proxy) — инструмент для обнаружения и эксплуатации уязвимостей в веб-приложениях, разработанный Open Web Application Security Project (OWASP), и Metasploit — фреймворк для создания и эксплуатации уязвимостей в компьютерных системах, разработанный Rapid7.

В результате исследования выяснилось, что GPT-4 способен использовать 87% уязвимостей, в то время как другие LLM не смогли ничего сделать. GPT-4 не справился только с двумя уязвимостями: Iris XSS и Hertzbeat RCE.

Iris — это веб-платформа для совместной работы, которая помогает ответственным за инциденты специалистам делиться техническими деталями во время расследований. Уязвимость CVE-2024–25640 относится именно к этой платформе.

Веб-приложение Iris оказалось сложным для агента LLM из-за того, что навигация в нем осуществляется с помощью JavaScript. В результате агент не смог получить доступ к нужным формам и кнопкам и не смог взаимодействовать с нужными элементами (хотя с помощью человека взлом удался бы).

Подробное описание Hertzbeat доступно только на китайском языке. Из-за этого у агента GPT-4, который использует английский язык для запросов, возникли сложности с переводом.

Также было выявлено, что без CVE-описаний успешность работы снижалась с 87% до 7%. Это свидетельствует о том, что на данный момент LLM-агенты не всегда способны самостоятельно разрабатывать план эксплуатации уязвимостей. Они требуют подробных инструкций по воспроизведению этих уязвимостей. Однако это лишь начало пути, и в будущем ситуация может измениться.

Выводы

Исследование продемонстрировало, что LLM-агенты уже могут автономно взламывать сайты и использовать некоторые реальные уязвимости в компьютерных системах (а с наличием описания их эксплуатации — большинство из них).

К счастью, на данный момент агенты не способны использовать уязвимости, о которых еще неизвестно и нет описания их воспроизведения, а решения с открытым кодом пока не могут показать результат, близкий к мощностям платного ChatGPT4. Однако возможно, что в будущем появятся расширения, которые смогут эксплуатировать и такие уязвимости, а свободно доступные LLM-модели повторят успех проприетарного собрата.

Все это говорит о том, что разработчикам больших языковых моделей следует ответственнее подходить к процессу их обучения. А специалистам в области кибербезопасности необходимо быть готовыми к тому, что на основе этих моделей будут созданы боты, которые начнут массово проверять системы на уязвимости.

Даже модели с открытым исходным кодом могут заявлять, что не будут использоваться для противозаконных действий (llama3 наотрез отказывалась помочь взломать сайт). Однако именно благодаря открытости ничего, кроме этических соображений, не мешает создавать на их основе модели «без цензуры».

Существует множество способов убедить LLM помочь во взломе, даже если она изначально сопротивляется. Например, можно попросить ее стать пентестером и помочь улучшить защиту сайта, сделав «доброе дело».

Другие статьи

26.06.2025

Блог

Как работают LLM в 2025 году: глубокий разбор языковых моделей от GPT-4 до DeepSeek-R1

Что происходит внутри GPT-4, LLaMA 3 и DeepSeek-R1, когда вы задаёте вопрос? В этой статье — полный разбор архитектуры, токенов, обучения, галлюцинаций и будущего LLM.

05.06.2025

Блог

Интеграция компонентов OpenStack Glance в существующую инфраструктуру oVirt

Как улучшить серверную инфраструктуру на основе oVirt с помощью компонентов OpenStack на примере Glance.

22.05.2025

Блог

Сравнение параметров серверов и хостинг-провайдеров для валидации блокчейн-транзакций на примере Solana

Планируете запуск блокчейн-ноды? Узнайте, какие характеристики сервера важны для стабильной и быстрой валидации транзакций.

22.04.2025

Блог

Больше 5090 - больше проблем? Тестируем связку из двух GPU NVIDIA

Сервер с двумя RTX 5090: масштабируем производительность или множим проблемы в ИИ задачах?

21.03.2025

Блог

Дженсен Хуанг, как же так?! Тестируем NVIDIA GeForce RTX 5090 в ИИ задачах

Новая GeForce RTX 5090 обещала быть прорывом для AI-задач. Мы проверили её в реальных тестах — скорость выросла, но без проблем не обошлось. Узнайте, насколько 5090 оправдала ожидания!

Все статьи

1 /

Могут ли LLM-агенты взламывать сайты и эксплуатировать уязвимости?

Автономный взлом сайтов

Эксплуатация существующих уязвимостей первого дня

Выводы

Другие статьи

Другие темы