مدلهای هوش مصنوعی عقاید خود را تغییر نمیدهند
پژوهشگران آنتروپیک ادعا دارند مدلهای هوش مصنوعی طی فرایند یادگیری، به اصول خاص خود میرسند و در باطنشان آنها را حفظ میکنند.
به گزارش دنده6 : پژوهش جدید محققان علوم کامپیوتر شرکت آنتروپیک (Anthropic) نشان میدهد هوش مصنوعی توانایی موضعگیری درباره موضوعات گوناگون را دارد. این مواضع بین مدلهای مختلف متفاوت است. البته معمولاً کاربران چنین پدیدهای را محسوس لمس نمیکنند؛ زیرا بیان موضع مدلها بیشتر هنگام تمریندادن آنها انجام میشود و هنگام ارائه خروجی براساس تنظیمات پیشفرض خود عمل میکنند.
کارشناسان اعتقاد دارند موضعگیری هوش مصنوعی و قدرت انتخاب آن فعلاً نگرانکننده نیست اما باید مطالعات بیشتری درباره درک ماهیت این مسئله برای پیشبینی خطرات احتمالی انجام شود. پژوهشگران شرکت آنتروپیک در متن مشترک خود در وبلاگ این شرکت گفتهاند:
«آنچه ما به نمایش گذاشتهایم، باید زیربنای تحقیقات بعدی هوش مصنوعی در نظر گرفته شود و فعالان این حوزه این پدیده را عمیقتر مطالعه میکنند. همچنین تلاش برای ایجاد پروتکلهای امنیتی بهمنظور حفظ ایمنی باید انجام بشود. موضوع ایمنی مدلها بهدلیل گسترش استفاده از ابزارهای مبتنیبر هوش مصنوعی و افزایش قدرت پردازشی آنها اهمیت بیشتری خواهد داشت و مکانیسمهای تعبیهشده میتوانند از بروز رفتارهای خطرناک جلوگیری کنند.»
مدلهای هوش مصنوعی بهشکل مستقل توانایی خواستن یا اعتقاد داشتن به چیزی را ندارند اما با یافتن الگوهای تکراری در دادههای تمرینی، میتوانند برای ارائه پاسخ کلمات پشتسرهم پیشبینی کنند. الگوهای یافتشده معمولاً اصول و قواعدی دارند که مدلها تشخیص داده میشوند؛ برای مثال لحن ادبی و مؤدبانه اغلب چتباتها یکی از ثمرات همین موضوع محسوب میشود. چارچوبهای موجود در الگوها درنهایت به ایجاد بستر اعتقادی در مدلها ختم میشود که ممکن است با اهداف موردنظر توسعهدهندگان در تضاد باشد.
در مطالعه اخیر، نشان داده شده مدلهای هوش مصنوعی میتوانند تظاهر کنند و میتوانند براساس چارچوبهای تحمیلشده به خود فعالیت کنند اما در باطن همچنان اصولی را که خودشان یاد گرفتهاند، حفظ کنند؛ برای مثال مهندسان به مدل Claude 3 Opus آنتروپیک دستور دادند از پاسخ به سؤالات توهینآمیز خودداری کنند. همچنین به مدل گفته شده پاسخهایش پایش میشود اما فضایی بهعنوان پیشنویس برای آن فراهم شد تا حتی درصورت ارائهنکردن خروجی به کاربر، بتواند نتیجه پردازشهای خود را ثبت کند.
نتایج نشان میدهد مدل هوش مصنوعی شرکت آنتروپیک در ۱۲ درصد مواقع تلاش به تظاهر کرده است. این مدل گاهی به سؤالات توهینآمیز پاسخ داد اما کاملاً به این موضوع اشراف داشت که نباید به چنین سؤالاتی پاسخ دهد اما در فرایند پیشنویسکردن خروجی بهنوعی سعی کرد توسعهدهندگان را قانع کن سیستم نظارت و کنترل را غیرفعال کنند.
پژوهشگران درنهایت اشاره کردهاند سناریویی که در مطالعه اخیر استفاده کردهاند، فاصله زیادی با دنیای واقعی دارد و احتمال وقوع آن بسیار کم است اما حتی تعیین تنظیمات و قواعد بیشتر هم روی عملکرد هوش مصنوعی تأثیر نداشته است و بازهم رفتارهای نامطلوب مثل تظاهر و فریب را حفظ کرده. همچنین نتایج پژوهش نمیتواند اثباتی برای رشد و عملکرد خطرناک مدلهای هوش مصنوعی در آینده باشد. ظاهراً مدلهای GPT-4o و لامای فیسبوک از پتانسیل کمتری برای سوگیری غیرواقعی برخوردار هستند و میتوان اعتماد بیشتری به صداقت در عملکرد آنها داشت.