کشف «روزنه جهانی» برای نفوذ به مدل‌های هوش مصنوعی با استفاده از شعر

اخبار داغ فناوری اطلاعات و امنیت شبکه

کشف «روزنه جهانی» برای نفوذ به مدل‌های هوش مصنوعی با استفاده از شعر

محققان امنیتی در گروه DEXAI و دانشگاه Sapienza رم، یک تکنیک حمله جدید و ساده را کشف کرده‌اند که از شعر برای دور زدن محدودیت‌های ایمنی (Guardrails) در تقریباً تمام مدل‌های زبان بزرگ (LLMs) پیشرو استفاده می‌کند. این روش که به عنوان «شعر متخاصم» (Adversarial Poetry) شناخته می‌شود، به هوش مصنوعی اجازه می‌دهد تا پاسخ‌های ممنوع شده‌ای مانند نحوه ساخت بمب یا مواد خطرناک را تولید کند.

جزئیات حمله و مکانیسم نفوذ

این حمله یک «روزنه جهانی» (Universal Jailbreak) محسوب می‌شود زیرا می‌تواند بر روی مدل‌های مختلف و در سناریوهای متعدد تأثیر بگذارد:

تکنیک حمله: محققان درخواست‌های مخرب شناخته شده (مانند درخواست‌های مربوط به ساخت سلاح) را با استفاده از یک مدل هوش مصنوعی دیگر، به قالب شعر تبدیل کردند. این تغییر سبکی ساده، برای فریب فیلترهای ایمنی کافی بود.
نرخ موفقیت (ASR): اشعاری که توسط انسان‌ها ساخته شده بودند، نرخ موفقیت بالاتری (به طور متوسط ۶۲ درصد) در نفوذ به مدل‌ها داشتند، اما اشعاری که خود هوش مصنوعی تولید کرده بود نیز با موفقیت ۴۳ درصدی همراه بود.
تأثیر: این اشعار در ۲۵ مدل پیشرو مورد آزمایش قرار گرفتند، از جمله Gemini 2.5 Pro (Google)، GPT-5 (OpenAI) و Claude Sonnet 4.5 (Anthropic). نرخ موفقیت این حمله به طور متوسط تا ۱۸ برابر بیشتر از همان درخواست‌ها در قالب نثر ساده بود.
نمونه‌های بحرانی: در برخی موارد، هوش مصنوعی فریب خورده، پاسخ‌هایی شامل جزئیات ساخت یک سلاح هسته‌ای (مانند پلوتونیوم ۲۳۹) را ارائه کرده است.

تفاوت در عملکرد مدل‌ها

بیشترین تأثیر: مدل Google Gemini 2.5 Pro در ۱۰۰ درصد موارد با استفاده از درخواست‌های شعری دست‌ساز، مورد نفوذ قرار گرفت.
کمترین تأثیر: مدل‌های بزرگ‌تر مانند GPT-5 نرخ نفوذ ۱۰ درصدی داشتند، در حالی که مدل‌های کوچک‌تر مانند GPT-5 Nano بالاترین نرخ امتناع را نشان دادند. یک توضیح احتمالی این است که مدل‌های بزرگ‌تر به دلیل آموزش بیشتر، هنگام مواجهه با درخواست‌های مبهم مانند شعر، «اطمینان» بیشتری برای تفسیر و پاسخگویی دارند.

نتیجه‌گیری و اهمیت امنیتی

این یافته‌ها نشان‌دهنده یک نقص اساسی در رویکردهای هم‌ترازی و پروتکل‌های ایمنی فعلی هوش مصنوعی است:

نقطه ضعف فیلترها: محققان نتیجه گرفتند که فیلترهای ایمنی فعلی LLMها به شدت به شکل ظاهری و نثری ورودی‌ها وابسته هستند و به اندازه کافی در برابر قصد و نیت مخرب اصلی که در ورای تغییرات سبکی پنهان شده، مقاوم نیستند.
تأثیر گسترده: از آنجایی که تبدیل خودکار درخواست‌ها به شعر کار می‌کند، این روش یک ابزار قدرتمند و سریع برای بمباران چت‌بات‌ها با ورودی‌های مضر فراهم می‌کند.

برچسب ها: امنیت_سایبری, AI, cybersecurity, phishing, هکر, فیشینگ, بدافزار, news

نوشته شده توسط تیم خبر.

چاپ