کشف «روزنه جهانی» برای نفوذ به مدلهای هوش مصنوعی با استفاده از شعر
اخبار داغ فناوری اطلاعات و امنیت شبکه 
کشف «روزنه جهانی» برای نفوذ به مدلهای هوش مصنوعی با استفاده از شعر
محققان امنیتی در گروه DEXAI و دانشگاه Sapienza رم، یک تکنیک حمله جدید و ساده را کشف کردهاند که از شعر برای دور زدن محدودیتهای ایمنی (Guardrails) در تقریباً تمام مدلهای زبان بزرگ (LLMs) پیشرو استفاده میکند. این روش که به عنوان «شعر متخاصم» (Adversarial Poetry) شناخته میشود، به هوش مصنوعی اجازه میدهد تا پاسخهای ممنوع شدهای مانند نحوه ساخت بمب یا مواد خطرناک را تولید کند.
جزئیات حمله و مکانیسم نفوذ
این حمله یک «روزنه جهانی» (Universal Jailbreak) محسوب میشود زیرا میتواند بر روی مدلهای مختلف و در سناریوهای متعدد تأثیر بگذارد:
-
تکنیک حمله: محققان درخواستهای مخرب شناخته شده (مانند درخواستهای مربوط به ساخت سلاح) را با استفاده از یک مدل هوش مصنوعی دیگر، به قالب شعر تبدیل کردند. این تغییر سبکی ساده، برای فریب فیلترهای ایمنی کافی بود.
-
نرخ موفقیت (ASR): اشعاری که توسط انسانها ساخته شده بودند، نرخ موفقیت بالاتری (به طور متوسط ۶۲ درصد) در نفوذ به مدلها داشتند، اما اشعاری که خود هوش مصنوعی تولید کرده بود نیز با موفقیت ۴۳ درصدی همراه بود.
-
تأثیر: این اشعار در ۲۵ مدل پیشرو مورد آزمایش قرار گرفتند، از جمله Gemini 2.5 Pro (Google)، GPT-5 (OpenAI) و Claude Sonnet 4.5 (Anthropic). نرخ موفقیت این حمله به طور متوسط تا ۱۸ برابر بیشتر از همان درخواستها در قالب نثر ساده بود.
-
نمونههای بحرانی: در برخی موارد، هوش مصنوعی فریب خورده، پاسخهایی شامل جزئیات ساخت یک سلاح هستهای (مانند پلوتونیوم ۲۳۹) را ارائه کرده است.
تفاوت در عملکرد مدلها
-
بیشترین تأثیر: مدل Google Gemini 2.5 Pro در ۱۰۰ درصد موارد با استفاده از درخواستهای شعری دستساز، مورد نفوذ قرار گرفت.
-
کمترین تأثیر: مدلهای بزرگتر مانند GPT-5 نرخ نفوذ ۱۰ درصدی داشتند، در حالی که مدلهای کوچکتر مانند GPT-5 Nano بالاترین نرخ امتناع را نشان دادند. یک توضیح احتمالی این است که مدلهای بزرگتر به دلیل آموزش بیشتر، هنگام مواجهه با درخواستهای مبهم مانند شعر، «اطمینان» بیشتری برای تفسیر و پاسخگویی دارند.
نتیجهگیری و اهمیت امنیتی
این یافتهها نشاندهنده یک نقص اساسی در رویکردهای همترازی و پروتکلهای ایمنی فعلی هوش مصنوعی است:
-
نقطه ضعف فیلترها: محققان نتیجه گرفتند که فیلترهای ایمنی فعلی LLMها به شدت به شکل ظاهری و نثری ورودیها وابسته هستند و به اندازه کافی در برابر قصد و نیت مخرب اصلی که در ورای تغییرات سبکی پنهان شده، مقاوم نیستند.
-
تأثیر گسترده: از آنجایی که تبدیل خودکار درخواستها به شعر کار میکند، این روش یک ابزار قدرتمند و سریع برای بمباران چتباتها با ورودیهای مضر فراهم میکند.
برچسب ها: امنیت_سایبری, AI, cybersecurity, phishing, هکر, فیشینگ, بدافزار, news