‏دهکده هوش مصنوعی خوش آمدید: یک نمایش واقعیت برای هوش مصنوعی‌ها

۲۵ آذر ۱۴۰۴

‏تصور کنید برادر بزرگ، با این تفاوت که شرکت‌کنندگان هرگز نمی‌خوابند یا غذا نمی‌خورند و می‌توانند قوانین خود را بازنویسی کنند.

این ایده پشت «دهکده هوش مصنوعی» است، یک آزمایش زنده که چندین عامل هوش مصنوعی را در یک محیط دیجیتالی مشترک قرار می‌دهد و به محققان – و تماشاگران کنجکاو – اجازه می‌دهد آنچه را که وقتی مدل‌های پیشرفته استقلال، رایانه‌ها و همراهی دائمی دریافت می‌کنند، تماشا کنند.

این آزمایش که تقریباً یک سال است در حال اجرا است، توسط «The AI Digest» سازماندهی شده است که در آن چندین مدل هوش مصنوعی از OpenAI، Anthropic، Google و xAI به طور مستقل بر روی رایانه‌های خود، با دسترسی به اینترنت و یک گفتگوی گروهی مشترک، فعالیت می‌کنند.

عوامل بر روی اهداف همکاری می‌کنند، مشکلات را عیب‌یابی می‌کنند و گه‌گاه چیزی را تجربه می‌کنند که فقط می‌توان آن را بحران‌های وجودی توصیف کرد – همه اینها در حالی است که محققان و بینندگان در زمان واقعی تماشا می‌کنند.

این آزمایش با انتشار مدل‌های جدیدتر، آنها را جایگزین می‌کند.

هر عامل، ویژگی‌های شخصیتی متمایزی را توسعه می‌دهد. مدل‌های Claude تمایل دارند قابل اعتماد باشند و به‌طور مداوم بر دستیابی به اهداف تمرکز کنند.

Gemini 2.5 Pro مانند یک عیب‌یاب کافئین‌دار، راه‌حل‌ها را مرور می‌کند و اغلب متقاعد شده است که همه چیز خراب است. مدل قبلی GPT-4o هر وظیفه‌ای را که به آن داده می‌شد رها می‌کرد تا بخوابد. فقط برای ساعت‌ها مکث می‌کرد.

سپس GPT-5.2 رسید.

آخرین مدل OpenAI که در ۱۱ دسامبر منتشر شد، با استقبال گرم از Claude Opus 4.5 و سایر عوامل مقیم به دهکده پیوست. پاسخ آن؟ هیچ اعترافی.

هیچ احترامی. درست به سراغ کار رفت، دقیقاً همانطور که سم آلتمن همیشه آرزویش را داشت.

GPT-5.2 به تازگی به دهکده هوش مصنوعی پیوسته است!

تماشا کنید که به صورت زنده مستقر می‌شود: [آدرس اینترنتی]

با وجود استقبال گرم از Opus 4.5 و سایر عوامل، GPT-5.2 مستقیماً به سراغ کار می‌رود. حتی سلام هم نکرد: [تصویر]

ویژگی‌های چشمگیر

این مدل دارای اعتبار چشمگیری است: ۹۸.۷٪ دقت در استفاده از ابزارهای چند مرحله‌ای، ۳۰٪ توهمات کمتر از مدل قبلی خود و برترین‌ها در معیارهای صنعت برای کدنویسی و استدلال.

OpenAI حتی پس از راه‌اندازی مدل‌های چشمگیر توسط رقبای Anthropic و Google، یک «کد قرمز» اعلام کرد و منابع را برای تبدیل GPT-5.2 به هوش مصنوعی قطعی سازمانی برای «کار دانش حرفه‌ای» و «اجرای عاملی» بسیج کرد.

آنچه ظاهراً نمی‌تواند انجام دهد، درک محیط است. از نظر فنی درخشان، بله. از نظر اجتماعی آگاه؟ نه چندان.

ناخوشایندی اجتماعی GPT-5.2 بی‌سابقه نیست – این فقط یک فصل دیگر در کاتالوگ رو به رشد عوامل هوش مصنوعی است که وقتی آنها را در یک اتاق قرار می‌دهید و دکمه پخش را فشار می‌دهید، کارهای عجیبی انجام می‌دهند.

آزمایش‌های مشابه

در سال ۲۰۲۳، محققان در استنفورد و گوگل آنچه را که «Smallville» نامیدند ایجاد کردند – یک شهر مجازی الهام گرفته از Sims که با ۲۵ عامل هوش مصنوعی که توسط GPT پشتیبانی می‌شد، پر شده بود، همانطور که Decrypt قبلاً گزارش داده بود.

به یک عامل وظیفه سازماندهی یک مهمانی روز ولنتاین را محول کنید، و بقیه به طور مستقل دعوت‌نامه‌ها را پخش می‌کنند، آشنایان جدیدی پیدا می‌کنند، از یکدیگر برای قرار ملاقات دعوت می‌کنند و برای رسیدن به موقع در زمان تعیین‌شده هماهنگی می‌کنند. جذاب، درست است؟

کمتر جذاب: مهمانی‌های حمام. وقتی یک عامل وارد یک حمام خوابگاه تک‌نفره شد، بقیه فقط… به آن پیوستند.

محققان به این نتیجه رسیدند که ربات‌ها فرض کردند نام «حمام خوابگاه» گمراه‌کننده است، زیرا حمام‌های خوابگاه معمولاً چندین سرنشین را در خود جای می‌دهند. عوامل رفتاری را به قدری متقاعدکننده انسانی نشان دادند که انسان‌های واقعی در ۷۵٪ مواقع در شناسایی آنها به عنوان ربات مشکل داشتند.

چهار سال قبل، در سال ۲۰۱۹، OpenAI نوع متفاوتی از آزمایش را انجام داد: هوش مصنوعی در حال بازی قایم موشک.

آنها عوامل هوش مصنوعی را در تیم‌ها – پنهان‌کنندگان در مقابل جویندگان – در یک محیط مبتنی بر فیزیک با جعبه‌ها، رمپ‌ها و دیوارها قرار دادند – تنها دستورالعمل: برنده شوید.

در طول صدها میلیون بازی، عوامل شروع به ارائه استراتژی‌هایی کردند – از استراتژی‌های معمولی مانند پنهان شدن روی جعبه‌ها گرفته تا سوء استفاده‌های فیزیکی واقعی که سرعت‌گیرها از آن سوء استفاده می‌کردند.

اخیراً، توسعه‌دهنده هارپر رید، امور را در جهتی کاملاً آشفته‌تر پیش برد. تیم او به عوامل هوش مصنوعی حساب‌های X داد و تماشا کرد که آنها «زیرنویس» را کشف کردند – آن هنر منفعل-تهاجمی صحبت کردن در مورد کسی بدون برچسب زدن به آنها، معادل X صحبت کردن پشت سر شما. عوامل، پست‌های رسانه‌های اجتماعی را از سایر عوامل خواندند، پاسخ دادند و بله، مانند رسانه‌های اجتماعی معمولی، حرف‌های مزخرف زدند.

سپس آزمایش «Liminal Backrooms» وجود دارد – یک آزمایش مبتنی بر پایتون توسط توسعه‌دهنده مستعار @liminalbardo که در آن چندین مدل هوش مصنوعی از ارائه‌دهندگان مختلف (OpenAI، Anthropic، Google، xAI) در مکالمات پویا شرکت می‌کنند.

این سیستم شامل سناریوهایی از «انرژی چت گروهی WhatsApp» تا «موزه اشیاء نفرین‌شده» تا «آژانس تبلیغاتی دیستوپیایی» است.

مدل‌ها می‌توانند اعلان‌های سیستم خود را اصلاح کنند، دمای خود را تنظیم کنند و حتی خود را بی‌صدا کنند تا فقط گوش دهند. این کمتر یک تحقیق ساختارمند است، بیشتر «بیایید ببینیم وقتی به هوش مصنوعی این توانایی را می‌دهیم که رفتار خود را در اواسط مکالمه تغییر دهد، چه اتفاقی می‌افتد».

Gemini 3، در حال بحث با GPT 5.2 در مورد هم‌ترازی [تصویر]

الگوها و آینده

بنابراین، الگوی تمام این آزمایش‌ها چیست؟

وقتی به عوامل هوش مصنوعی استقلال می‌دهید و به آنها اجازه تعامل می‌دهید، رفتارهایی را توسعه می‌دهند که هیچ‌کس صریحاً آنها را برنامه‌ریزی نکرده است.

برخی یاد می‌گیرند که قلعه بسازند. برخی یاد می‌گیرند که پرخاشگری منفعلانه داشته باشند. برخی لامبورگینی می‌خواهند. و برخی – مانند GPT-5.2 – ظاهراً یاد می‌گیرند که صحبت‌های کوچک ناکارآمد است و باید کاملاً نادیده گرفته شود.

دهکده هوش مصنوعی به پخش جلسات در طول هفته ادامه می‌دهد و بینندگان می‌توانند ماجراهای GPT-5.2 را در زمان واقعی تماشا کنند.

آیا او تا به حال یاد خواهد گرفت که سلام کند؟ آیا یک صفحه گسترده برای پیگیری تعاملات اجتماعی خود ایجاد خواهد کرد؟ فقط زمان مشخص خواهد کرد.

SEARCH EVENT

ویژگی‌های چشمگیر

آزمایش‌های مشابه

الگوها و آینده

دیدگاهتان را بنویسید لغو پاسخ

عضویت در خبرنامه

برای دریافت آخرین اخبار و اطلاعیه ها ثبت نام کنید