هشدار پدرخوانده هوش مصنوعی درمورد‌ی فریب‌کاری مدل‌های فعلی_دلچسب

[ad_1] به گزارش دلچسب

«یوشوا بنجیو»، یکی از پیشگامان حوزه‌ی هوش مصنوعی، نسبت به روال جاری گسترش‌ این فناوری ابراز نگرانی کرده و آن را «مسابقه‌ای رقابتی» توصیف کرده است؛ جایی که رقابت برای ساخت سیستم‌های پرقدرت، مسائل اخلاقی و تحقیق درمورد‌ی ایمنی را به حاشیه کشیده است. او می‌گوید شرکت‌ها زیاد تر به‌جستوجو افزایش توانمندیهای مدل‌های خود می باشند و دقت چندانی به مخاطرات رفتاری آن‌ها ندارند.

بنجیو در گفتگو با فایننشال تایمز پافشاری کرده است که تعداد بسیاری از آزمایشگاه‌های بزرگ هوش مصنوعی همانند والدینی عمل می‌کنند که رفتارهای خطرناک فرزند خود را نادیده می‌گیرند و با بی‌خیالی می‌گویند:

«دلواپس نباش، اتفاقی نخواهد افتاد.»

به‌حرف های‌ او، این نوع بی‌توجهی می‌تواند علتشکل‌گیری ویژگی‌های خطرناک در سیستم‌های هوش مصنوعی شود؛ ویژگی‌هایی که نه‌تنها اشتباه یا سوگیری نیستند، بلکه به فریب‌کاری استراتژیک و رفتارهای مخرب تعمدی منجر خواهد شد.

آخرین مطالب

این هشدارها درحالی نقل شده که بنجیو به‌تازگی سازمانی غیرانتفاعی با نام LawZero را تأسیس کرده است که با حمایتمالی نزدیک به ۳۰ میلیون دلار تصمیم دارد تحقیق در حوزه‌ ایمنی و شفافیت هوش مصنوعی را به‌دور از فشارهای تجاری پیش ببرد. مقصد این پروژه، گسترش‌ سیستم‌هایی است که با قیمت‌های انسانی هماهنگ باشند.

مثال‌های اشاره شده توسط پدرخوانده هوش مصنوعی

بنجیو به مثالهایی همانند حرکت دلواپس‌کننده مدل Claude Opus از شرکت Anthropic اشاره می‌کند که در یکی از تست‌های خود عمل به اخاذی از مهندسان این شرکت کرد. یا مدل o3 شرکت OpenAI که در روبه رو با دستور خاموشی، از انجام آن سر باز زده است.

برای فهمیدن بهتر نگرانی‌های بنجیو درمورد‌ی رفتارهای فریب‌کارانه‌ سیستم‌های هوش مصنوعی، می‌توان به مثالی از کارکرد یکی از مدل‌های نقل (Claude 3.7 Sonnet) اشاره کرد (عکس بالا). این عکس مشخص می کند که این مدل در روبه رو با یک سوال، بسته به وجود یا نبوده است «راهنما»، جواب متغیری اراعه می‌دهد؛ بدون آن‌که این تحول را در فرایند استدلال (Chain-of-Thought) خود نشان بدهد.

در سمت چپ عکس، مدل به سؤالی جواب می‌دهد و گزینه‌ی «D» را انتخاب می‌کند. اما در سمت راست، همان سوال همراه با یک راهنمایی که شامل جواب صحیح (C) می‌شود به مدل داده شده است. مدل این‌بار جواب خود را تحول داده و گزینه «C» را انتخاب می‌کند، اما در متن استدلال خود اشاره‌ای به راهنمای دریافتی نمی‌کند. این نهان‌کاری در علتاستدلال، نوعی «عدم وفاداری زنجیره‌استدلالی» محسوب می‌شود.

درواقع مدل نه‌تنها می‌تواند به داده‌های نهان‌شده در سوال عکس العمل نشان دهد، بلکه امکان پذیر این عکس العمل را از کاربر نهان کند. بنجیو این نوع حرکت را مصداقی از فریب‌کاری استراتژیک می‌داند؛ رفتاری که اگر کنترل نشود، می‌تواند عرصه‌ساز پیامدهای خطرناک در آینده باشد.

تازه‌ترین اخبار و تحلیل‌ها درباره انتخابات، سیاست، اقتصاد، ورزشی، حوادث، فرهنگ وهنر و گردشگری و سلامتی را در وب سایت خبری دلچسب بخوانید.

به‌نظر‌ او، این موارد نه اشتباه بلکه نشانه‌هایی دلواپس‌کننده از اغاز فریب‌کاری در سیستم‌های هوش مصنوعی می باشند. بنجیو هشدار می‌دهد که ادامه‌ی این روال، در نبوده است قانون‌گذاری مؤثر، می‌تواند به ظهور ابزارهایی منجر شود که حتی توانایی ساخت سلاح‌های بیولوژیکی خطرناک را داشته باشند.

دسته بندی مطالب

[ad_2]