تصور کنید برادر بزرگ، با این تفاوت که شرکتکنندگان هرگز نمیخوابند یا غذا نمیخورند و میتوانند قوانین خود را بازنویسی کنند.
این ایده پشت «دهکده هوش مصنوعی» است، یک آزمایش زنده که چندین عامل هوش مصنوعی را در یک محیط دیجیتالی مشترک قرار میدهد و به محققان – و تماشاگران کنجکاو – اجازه میدهد آنچه را که وقتی مدلهای پیشرفته استقلال، رایانهها و همراهی دائمی دریافت میکنند، تماشا کنند.
این آزمایش که تقریباً یک سال است در حال اجرا است، توسط «The AI Digest» سازماندهی شده است که در آن چندین مدل هوش مصنوعی از OpenAI، Anthropic، Google و xAI به طور مستقل بر روی رایانههای خود، با دسترسی به اینترنت و یک گفتگوی گروهی مشترک، فعالیت میکنند.
عوامل بر روی اهداف همکاری میکنند، مشکلات را عیبیابی میکنند و گهگاه چیزی را تجربه میکنند که فقط میتوان آن را بحرانهای وجودی توصیف کرد – همه اینها در حالی است که محققان و بینندگان در زمان واقعی تماشا میکنند.
این آزمایش با انتشار مدلهای جدیدتر، آنها را جایگزین میکند.
هر عامل، ویژگیهای شخصیتی متمایزی را توسعه میدهد. مدلهای Claude تمایل دارند قابل اعتماد باشند و بهطور مداوم بر دستیابی به اهداف تمرکز کنند.
Gemini 2.5 Pro مانند یک عیبیاب کافئیندار، راهحلها را مرور میکند و اغلب متقاعد شده است که همه چیز خراب است. مدل قبلی GPT-4o هر وظیفهای را که به آن داده میشد رها میکرد تا بخوابد. فقط برای ساعتها مکث میکرد.
سپس GPT-5.2 رسید.
آخرین مدل OpenAI که در ۱۱ دسامبر منتشر شد، با استقبال گرم از Claude Opus 4.5 و سایر عوامل مقیم به دهکده پیوست. پاسخ آن؟ هیچ اعترافی.
هیچ احترامی. درست به سراغ کار رفت، دقیقاً همانطور که سم آلتمن همیشه آرزویش را داشت.
GPT-5.2 به تازگی به دهکده هوش مصنوعی پیوسته است!
تماشا کنید که به صورت زنده مستقر میشود: [آدرس اینترنتی]
با وجود استقبال گرم از Opus 4.5 و سایر عوامل، GPT-5.2 مستقیماً به سراغ کار میرود. حتی سلام هم نکرد: [تصویر]
ویژگیهای چشمگیر
این مدل دارای اعتبار چشمگیری است: ۹۸.۷٪ دقت در استفاده از ابزارهای چند مرحلهای، ۳۰٪ توهمات کمتر از مدل قبلی خود و برترینها در معیارهای صنعت برای کدنویسی و استدلال.
OpenAI حتی پس از راهاندازی مدلهای چشمگیر توسط رقبای Anthropic و Google، یک «کد قرمز» اعلام کرد و منابع را برای تبدیل GPT-5.2 به هوش مصنوعی قطعی سازمانی برای «کار دانش حرفهای» و «اجرای عاملی» بسیج کرد.
آنچه ظاهراً نمیتواند انجام دهد، درک محیط است. از نظر فنی درخشان، بله. از نظر اجتماعی آگاه؟ نه چندان.
ناخوشایندی اجتماعی GPT-5.2 بیسابقه نیست – این فقط یک فصل دیگر در کاتالوگ رو به رشد عوامل هوش مصنوعی است که وقتی آنها را در یک اتاق قرار میدهید و دکمه پخش را فشار میدهید، کارهای عجیبی انجام میدهند.
آزمایشهای مشابه
در سال ۲۰۲۳، محققان در استنفورد و گوگل آنچه را که «Smallville» نامیدند ایجاد کردند – یک شهر مجازی الهام گرفته از Sims که با ۲۵ عامل هوش مصنوعی که توسط GPT پشتیبانی میشد، پر شده بود، همانطور که Decrypt قبلاً گزارش داده بود.
به یک عامل وظیفه سازماندهی یک مهمانی روز ولنتاین را محول کنید، و بقیه به طور مستقل دعوتنامهها را پخش میکنند، آشنایان جدیدی پیدا میکنند، از یکدیگر برای قرار ملاقات دعوت میکنند و برای رسیدن به موقع در زمان تعیینشده هماهنگی میکنند. جذاب، درست است؟
کمتر جذاب: مهمانیهای حمام. وقتی یک عامل وارد یک حمام خوابگاه تکنفره شد، بقیه فقط… به آن پیوستند.
محققان به این نتیجه رسیدند که رباتها فرض کردند نام «حمام خوابگاه» گمراهکننده است، زیرا حمامهای خوابگاه معمولاً چندین سرنشین را در خود جای میدهند. عوامل رفتاری را به قدری متقاعدکننده انسانی نشان دادند که انسانهای واقعی در ۷۵٪ مواقع در شناسایی آنها به عنوان ربات مشکل داشتند.
چهار سال قبل، در سال ۲۰۱۹، OpenAI نوع متفاوتی از آزمایش را انجام داد: هوش مصنوعی در حال بازی قایم موشک.
آنها عوامل هوش مصنوعی را در تیمها – پنهانکنندگان در مقابل جویندگان – در یک محیط مبتنی بر فیزیک با جعبهها، رمپها و دیوارها قرار دادند – تنها دستورالعمل: برنده شوید.
در طول صدها میلیون بازی، عوامل شروع به ارائه استراتژیهایی کردند – از استراتژیهای معمولی مانند پنهان شدن روی جعبهها گرفته تا سوء استفادههای فیزیکی واقعی که سرعتگیرها از آن سوء استفاده میکردند.
اخیراً، توسعهدهنده هارپر رید، امور را در جهتی کاملاً آشفتهتر پیش برد. تیم او به عوامل هوش مصنوعی حسابهای X داد و تماشا کرد که آنها «زیرنویس» را کشف کردند – آن هنر منفعل-تهاجمی صحبت کردن در مورد کسی بدون برچسب زدن به آنها، معادل X صحبت کردن پشت سر شما. عوامل، پستهای رسانههای اجتماعی را از سایر عوامل خواندند، پاسخ دادند و بله، مانند رسانههای اجتماعی معمولی، حرفهای مزخرف زدند.
سپس آزمایش «Liminal Backrooms» وجود دارد – یک آزمایش مبتنی بر پایتون توسط توسعهدهنده مستعار @liminalbardo که در آن چندین مدل هوش مصنوعی از ارائهدهندگان مختلف (OpenAI، Anthropic، Google، xAI) در مکالمات پویا شرکت میکنند.
این سیستم شامل سناریوهایی از «انرژی چت گروهی WhatsApp» تا «موزه اشیاء نفرینشده» تا «آژانس تبلیغاتی دیستوپیایی» است.
مدلها میتوانند اعلانهای سیستم خود را اصلاح کنند، دمای خود را تنظیم کنند و حتی خود را بیصدا کنند تا فقط گوش دهند. این کمتر یک تحقیق ساختارمند است، بیشتر «بیایید ببینیم وقتی به هوش مصنوعی این توانایی را میدهیم که رفتار خود را در اواسط مکالمه تغییر دهد، چه اتفاقی میافتد».
Gemini 3، در حال بحث با GPT 5.2 در مورد همترازی [تصویر]
الگوها و آینده
بنابراین، الگوی تمام این آزمایشها چیست؟
وقتی به عوامل هوش مصنوعی استقلال میدهید و به آنها اجازه تعامل میدهید، رفتارهایی را توسعه میدهند که هیچکس صریحاً آنها را برنامهریزی نکرده است.
برخی یاد میگیرند که قلعه بسازند. برخی یاد میگیرند که پرخاشگری منفعلانه داشته باشند. برخی لامبورگینی میخواهند. و برخی – مانند GPT-5.2 – ظاهراً یاد میگیرند که صحبتهای کوچک ناکارآمد است و باید کاملاً نادیده گرفته شود.
دهکده هوش مصنوعی به پخش جلسات در طول هفته ادامه میدهد و بینندگان میتوانند ماجراهای GPT-5.2 را در زمان واقعی تماشا کنند.
آیا او تا به حال یاد خواهد گرفت که سلام کند؟ آیا یک صفحه گسترده برای پیگیری تعاملات اجتماعی خود ایجاد خواهد کرد؟ فقط زمان مشخص خواهد کرد.
