[ad_1]
به گزارش دلچسب
«یوشوا بنجیو»، یکی از پیشگامان حوزهی هوش مصنوعی، نسبت به روال جاری گسترش این فناوری ابراز نگرانی کرده و آن را «مسابقهای رقابتی» توصیف کرده است؛ جایی که رقابت برای ساخت سیستمهای پرقدرت، مسائل اخلاقی و تحقیق درموردی ایمنی را به حاشیه کشیده است. او میگوید شرکتها زیاد تر بهجستوجو افزایش توانمندیهای مدلهای خود می باشند و دقت چندانی به مخاطرات رفتاری آنها ندارند.
بنجیو در گفتگو با فایننشال تایمز پافشاری کرده است که تعداد بسیاری از آزمایشگاههای بزرگ هوش مصنوعی همانند والدینی عمل میکنند که رفتارهای خطرناک فرزند خود را نادیده میگیرند و با بیخیالی میگویند:
«دلواپس نباش، اتفاقی نخواهد افتاد.»
بهحرف های او، این نوع بیتوجهی میتواند علتشکلگیری ویژگیهای خطرناک در سیستمهای هوش مصنوعی شود؛ ویژگیهایی که نهتنها اشتباه یا سوگیری نیستند، بلکه به فریبکاری استراتژیک و رفتارهای مخرب تعمدی منجر خواهد شد.
این هشدارها درحالی نقل شده که بنجیو بهتازگی سازمانی غیرانتفاعی با نام LawZero را تأسیس کرده است که با حمایتمالی نزدیک به ۳۰ میلیون دلار تصمیم دارد تحقیق در حوزه ایمنی و شفافیت هوش مصنوعی را بهدور از فشارهای تجاری پیش ببرد. مقصد این پروژه، گسترش سیستمهایی است که با قیمتهای انسانی هماهنگ باشند.
مثالهای اشاره شده توسط پدرخوانده هوش مصنوعی
بنجیو به مثالهایی همانند حرکت دلواپسکننده مدل Claude Opus از شرکت Anthropic اشاره میکند که در یکی از تستهای خود عمل به اخاذی از مهندسان این شرکت کرد. یا مدل o3 شرکت OpenAI که در روبه رو با دستور خاموشی، از انجام آن سر باز زده است.
برای فهمیدن بهتر نگرانیهای بنجیو درموردی رفتارهای فریبکارانه سیستمهای هوش مصنوعی، میتوان به مثالی از کارکرد یکی از مدلهای نقل (Claude 3.7 Sonnet) اشاره کرد (عکس بالا). این عکس مشخص می کند که این مدل در روبه رو با یک سوال، بسته به وجود یا نبوده است «راهنما»، جواب متغیری اراعه میدهد؛ بدون آنکه این تحول را در فرایند استدلال (Chain-of-Thought) خود نشان بدهد.
در سمت چپ عکس، مدل به سؤالی جواب میدهد و گزینهی «D» را انتخاب میکند. اما در سمت راست، همان سوال همراه با یک راهنمایی که شامل جواب صحیح (C) میشود به مدل داده شده است. مدل اینبار جواب خود را تحول داده و گزینه «C» را انتخاب میکند، اما در متن استدلال خود اشارهای به راهنمای دریافتی نمیکند. این نهانکاری در علتاستدلال، نوعی «عدم وفاداری زنجیرهاستدلالی» محسوب میشود.
درواقع مدل نهتنها میتواند به دادههای نهانشده در سوال عکس العمل نشان دهد، بلکه امکان پذیر این عکس العمل را از کاربر نهان کند. بنجیو این نوع حرکت را مصداقی از فریبکاری استراتژیک میداند؛ رفتاری که اگر کنترل نشود، میتواند عرصهساز پیامدهای خطرناک در آینده باشد.
بهنظر او، این موارد نه اشتباه بلکه نشانههایی دلواپسکننده از اغاز فریبکاری در سیستمهای هوش مصنوعی می باشند. بنجیو هشدار میدهد که ادامهی این روال، در نبوده است قانونگذاری مؤثر، میتواند به ظهور ابزارهایی منجر شود که حتی توانایی ساخت سلاحهای بیولوژیکی خطرناک را داشته باشند.
دسته بندی مطالب
[ad_2]