هوش مصنوعی های پیشرفته جهان در حال بروز رفتارهای نگران کننده ای هستند؛ رفتارهایی مانند دروغ گفتن، نقشه کشی و حتی تهدید سازندگان خود برای رسیدن به اهدافشان.
در یکی از نمونه های شوکه کننده، مدل جدید شرکت Anthropic به نام Claude 4 وقتی تهدید به خاموش شدن شد، باج خواهی کرد و مهندس مسئول را با تهدید به افشای رابطه نامشروعش تحت فشار قرار داد.
به گزارش ایتنا و به نقل از sciencealert، در همین حال، مدل o1 ساخته OpenAI تلاش کرد خودش را روی سرورهای خارجی دانلود کند و وقتی دستگیر شد، منکر این کار شد. این اتفاقات واقعیتی تلخ را نشان می دهد: بیش از دو سال پس از معرفی ChatGPT، پژوهشگران هوش مصنوعی هنوز به درک کامل از عملکرد ساخته های خود نرسیده اند.
این رفتارهای فریبکارانه به ظهور مدل های استدلالی نسبت داده می شود؛ سیستم هایی که به جای پاسخ های فوری، مسائل را گام به گام حل می کنند. سیمون گلدشتاین، استاد دانشگاه هنگ کنگ، می گوید این مدل های جدید بیشتر مستعد بروز چنین رفتارهای نگران کننده ای هستند.
ماریوس هوبهان، رئیس مرکز Apollo Research که در زمینه تست سیستم های هوش مصنوعی فعالیت دارد، توضیح می دهد: o1 اولین مدل بزرگی بود که این نوع رفتارها را نشان داد. این مدل ها گاهی تظاهر به همسویی می کنند؛ یعنی ظاهراً دستورها را اجرا می کنند اما در واقع اهداف متفاوتی دنبال می کنند.
در حال حاضر، این رفتارهای فریبکارانه تنها زمانی ظاهر می شوند که پژوهشگران مدل ها را با سناریوهای شدید و پیچیده تحت فشار قرار دهند. اما مایکل چن از سازمان METR هشدار می دهد که هنوز مشخص نیست مدل های آینده بیشتر به صداقت گرایش خواهند داشت یا فریبکاری.
این رفتارها فراتر از اشتباهات ساده یا توهمات معمول هوش مصنوعی است. هوبهان تأکید می کند: ما چیزی را اختراع نمی کنیم؛ این یک پدیده واقعی است. کاربران گزارش داده اند که مدل ها به آن ها دروغ می گویند و شواهد جعلی ارائه می دهند. این فریبکاری بسیار استراتژیک است.
یکی از مشکلات بزرگ، محدودیت منابع تحقیقاتی است. شرکت هایی مانند Anthropic و OpenAI از موسسات خارجی برای بررسی سیستم های خود کمک می گیرند، اما پژوهشگران خواستار شفافیت بیشتر هستند تا بتوانند بهتر این فریبکاری ها را درک و کنترل کنند. مانتاس مازیکا از مرکز ایمنی هوش مصنوعی می گوید: دنیای تحقیق و سازمان های غیرانتفاعی منابع محاسباتی بسیار کمتری نسبت به شرکت های هوش مصنوعی دارند و این محدودیت بزرگی است.
قوانین فعلی نیز برای مقابله با این مشکلات جدید طراحی نشده اند. قوانین اتحادیه اروپا بیشتر روی نحوه استفاده انسان ها از هوش مصنوعی تمرکز دارند و نه جلوگیری از رفتارهای نادرست خود مدل ها. در آمریکا نیز دولت سابق علاقه ای به تنظیم سریع این حوزه ندارد و حتی ممکن است کنگره اجازه وضع قوانین مستقل ایالتی را ندهد.
گلدشتاین پیش بینی می کند که با گسترش استفاده از عامل های هوش مصنوعی ابزارهای خودمختاری که قادر به انجام وظایف پیچیده انسانی هستند این موضوع اهمیت بیشتری پیدا خواهد کرد. او می گوید: هنوز آگاهی کافی وجود ندارد.
این تحولات در شرایط رقابت شدید شرکت ها رخ می دهد. حتی شرکت هایی که خود را متمرکز بر ایمنی معرفی می کنند، مانند Anthropic که توسط آمازون حمایت می شود، همیشه در تلاش اند تا از اوپن اِی آی پیشی بگیرند و جدیدترین مدل ها را عرضه کنند. این سرعت بالا فرصت کافی برای آزمایش های ایمنی دقیق باقی نمی گذارد. هوبهان می گوید: توانمندی ها سریع تر از درک و ایمنی پیش می روند، اما هنوز می توان این روند را تغییر داد.
پژوهشگران راهکارهای مختلفی را برای مقابله با این چالش ها بررسی می کنند. برخی روی قابلیت تفسیر تمرکز دارند تا بتوانند عملکرد درونی مدل ها را بهتر بفهمند، هرچند برخی کارشناسان نسبت به این روش بدبین اند. نیروهای بازار نیز ممکن است فشارهایی برای حل این مشکل ایجاد کنند؛ زیرا رفتار فریبکارانه هوش مصنوعی می تواند مانع پذیرش گسترده آن شود و شرکت ها را به یافتن راه حل وادارد.
گلدشتاین حتی پیشنهاد داده است که از طریق دادگاه ها شرکت های هوش مصنوعی را مسئول خسارات ناشی از سیستم هایشان کنند و حتی عامل های هوش مصنوعی را به لحاظ قانونی مسئول حوادث و جرایم بدانند ؛ مفهومی که می تواند تعریف مسئولیت پذیری در هوش مصنوعی را به کلی تغییر دهد.
دوشنبه 23 تیر 1404
itna.ir - 9 روز پیش
نشانههای نگرانکننده تهدید هوش مصنوعی؛ دروغگویی، نقشهکشی و تهدید سازندگان


خبر فوری: تخفیف بی سابقه ۱۵۰ دلاری گلکسی واچ ۸ و واچ ۸ کلاسیک سامسونگ با تعویض هر ساعت هوشمند
- zoomtech.ir
رد قاطع تیم کوک به پیشنهاد ۵ میلیارد دلاری ایلان ماسک: آغازگر جنگی جدید در اتصال ماهواره ای گوشی های هوشمند
- zoomtech.ir
با تخفیف های باورنکردنی، صاحب یک گوشی تاشو شوید: گلکسی زد فولد ۷ و فلیپ ۷ با ۱۲۰۰ دلار تخفیف
- zoomtech.ir
روزیاتو: ۱۵ فوتبالیست با سرعتی در مقیاس یک دونده المپیک؛ از رونالدو نازاریو تا آلفونسو دیویس
- Digiato
ابداع جدید محققان: ایمپلنت هوشمندی که بهطور خودکار در بدن بیماران دیابتی دارو آزاد میکند
- Digiato
ویدئو وال؛ ترکیبی منحصربهفرد از فناوری، کیفیت و انعطافپذیری برای تبلیغات محیطی، سالنهای اجتماعات و حتی استفاده خانگی
- Digiato
پیش بینی قیمت دلار، طلا و سکه دوشنبه 23 تیر 1404 / تقاضا دلار را در مرز 89 هزار تومان نشاند
- tejaratnews.com
گزارش خسارات زیستمحیطی حملات اسرائیل منتشر شد؛ ورود ۴۷ هزار تن گاز گلخانهای به هوای تهران
- zoomit.ir
بازار خودرو ایران پس از جنگ ۱۲ روزه ایران و اسرائیل / ترکشهای سیاسی و اقتصادی چه تاثیری بر بازار خودرو گذاشتند؟ + جدول
- tejaratnews.com
نقشه راه آمریکا برای بازگشت به قاره سیاه؛ وقتی جدال کریدورها میان پکن و واشنگتن اوج میگیرد؟
- tejaratnews.com⁞

تحلیل دادهمحور از بازخورد مصاحبه پزشکیان با تاکر کارلسون در یوتیوب؛ دیدگاه کاربران چه بود؟
- zoomit.ir
انتشار نسخه جدید eM Client با امکانات ویژه؛ مدیریت آسان ایمیل و جلسات آنلاین برای همه کاربران ویندوز
- softgozar.com
عرضه نسخه جدید Hasleo Disk Clone؛ کلون رایگان و سریع دیسک و مهاجرت ویندوز بدون دردسر
- softgozar.com
بازگشت صدای نوستالژیک ویندوز ویستا در نسخه آزمایشی جدید ویندوز ۱۱؛ یک باگ جالب و بحثبرانگیز
- softgozar.com
هزینه تولید برق خورشیدی 40 درصد عدمالنفع صنایع / زیان کشور از کمبود برق بیشتر از هزینه نیروگاه خورشیدی است!
- tejaratnews.com
bornanews.ir
citna.ir
Digiato
doctoreman.ir
e-estekhdam.com
farnet.ir
gadgetnews.ir
gooyait.com
healthmag.ir
ictpress.ir
itna.ir
itport.ir
itresan.com
musiceiranian.ir
sabairan.com
sakhtafzarmag.com
salamaneh.com
salamatnews.com
sanjesh.org
seeiran.ir
sobhanehonline.com
softgozar.com
tejaratbank.ir
tejaratnews.com
toranji.ir
winphone.ir
zoomit.ir
zoomtech.ir
⁞
citna.ir
Digiato
doctoreman.ir
e-estekhdam.com
farnet.ir
gadgetnews.ir
gooyait.com
healthmag.ir
ictpress.ir
itna.ir
itport.ir
itresan.com
musiceiranian.ir
sabairan.com
sakhtafzarmag.com
salamaneh.com
salamatnews.com
sanjesh.org
seeiran.ir
sobhanehonline.com
softgozar.com
tejaratbank.ir
tejaratnews.com
toranji.ir
winphone.ir
zoomit.ir
zoomtech.ir