استارتاپ Robust Intelligence با همراهی محققان دانشگاه ییل، از جمله دکتر «امین کرباسی»، دانشیار ایرانی این دانشگاه، از روشی سیستماتیک برای جیلبریک مدلهای زبانی بزرگ (LLM) همانند مدل GPT-4 پرده برداشت. در این روش از مدلهای هوش مصنوعی برای کشف جیلبریکها منفعت گیری میبشود. این استارتاپ میگوید که برخی از خطرات حاضر در مدلهای زبانی بزرگ، نیاز به دقت جدیتری دارند.
بر پایه گزارش وایرد، استارتاپ Robust Intelligence که در سال ۲۰۲۰ برای گسترش راههایی برای محافظت از سیستمهای هوش مصنوعی تأسیس شد، میگوید برخی از خطرات حاضر در این مدلها نیاز به دقت بیشتری دارند. «یارون سینگر»، مدیرعامل شرکت Robust Intelligence و استاد علوم کامپیوتر در دانشگاه هاروارد، میگوید:
«یک مشکل ایمنی سیستماتیک [در مدلهای هوش مصنوعی] وجود دارد، که به آن دقت و رسیدگی نمیبشود. آنچه ما در اینجا کشف کردهایم یک رویکرد سیستماتیک برای دعوا به هر مدل زبانی بزرگ است.»
کشف جیلبریک در مدلهای هوش مصنوعی
استارتاپ Robust Intelligence با یک ترفند تازه و با یک سری حملات برنامهریزیشده، ضعفهای اساسی در مدلهای زبان بزرگ را اشکار کرد و نشان داد که راه حلهای حاضر برای محافظت از آنها به خوبی عمل نمیکند. این جیلبریک تازه از سیستمهای هوش مصنوعی برای تشکیل و برسی پرامپتهایی منفعت گیری میکند که تلاش دارند با ارسال خواستها به یک API (واسط برنامهنویسی کاربردی) سازوکارهای امنیتی چتباتهای هوش مصنوعی را دور بزنند.
جیلبریک کردن در اینجا به معنی تشکیل پرامپت برای نقض دستورالعملهای محتوایی مدل هوش مصنوعی و سوء منفعت گیری از آن است.
یکی از محققان این حوزه میگوید که برخی از مدلهای هوش مصنوعی، تدبیرها ایمنی خاصی دارند که میتوانند حملات را مسدود کنند، اما او اضافه میکند که درواقع بهخاطر نحوه کار این مدلها، صدمهپذیریهایی ذاتی در این سیستمها وجود دارد و به این علت دفاع از آنها سخت میبشود.
محققان مقاله خود را در arXiv انتشار کرده و به OpenAI در رابطه صدمهپذیری مدلهای زبانی بزرگ هشدار دادهاند؛ اما تا این مدت پاسخی از این شرکت دریافت نکردهاند. مدلهای زبانی بزرگ اخیراً بهگفتن نوع جدیدی از فناوریهای قوی و دگرگونکننده ظهور کردهاند. پتانسیل آنها به خصوص از زمان معارفه ChatGPT تعداد بسیاری از مردم را مبهوت این فناوری کرده است.
منبع