سایت نمایشگاه تخصصی ایران ایفتکس
در حال دانلود
۱۷ بهمن ۱۴۰۴

‏شرکت‌های OpenAI و Anthropic در روز پنج‌شنبه و با فاصله‌ی زمانی کمی از یکدیگر، از مدل‌های هوش مصنوعی پرچمدار جدید خود رونمایی کردند. این اقدام، رقابت فزاینده میان توسعه‌دهندگان پیشرو برای تسلط بر نرم‌افزارهای سازمانی و ابزارهای پیشرفته‌ی کدنویسی را برجسته می‌کند.

معرفی مدل‌های جدید

شرکت Anthropic از Claude Opus 4.6 رونمایی کرد و از پیشرفت‌های آن در زمینه‌ی استدلال در زمینه‌ی داده‌های طولانی و گردش کارهای مبتنی بر عامل خبر داد. اندکی پس از آن، OpenAI از GPT-5.3 Codex، مدلی بهینه شده برای کدنویسی عامل‌محور و توسعه‌ی نرم‌افزار، پرده برداشت.

این رونمایی‌های تقریباً همزمان، نشان‌دهنده‌ی سرعت بالای نوآوری رقبا در تلاش برای به دست آوردن قراردادهای بلندمدت با مشتریان بزرگ سازمانی است.

مقایسه عملکرد

نتایج بنچمارک‌ها نشان می‌دهد که این دو مدل برای نقاط قوت متفاوتی بهینه شده‌اند.

بر اساس آمارهای منتشر شده توسط هر دو شرکت، Claude Opus 4.6 عملکرد قوی‌تری در وظایف مرتبط با استدلال حقوقی و مالی نشان داد، در حالی که GPT-5.3 Codex در آزمون‌های کدنویسی عامل‌محور و معیارهای کارایی عملکرد بهتری داشت.

تأثیر بر بازار

این رونمایی‌ها در حالی صورت می‌گیرد که سرمایه‌گذاران در حال ارزیابی مجدد چشم‌انداز ارائه‌دهندگان نرم‌افزارهای سنتی هستند. سهام چندین شرکت ارائه‌دهنده‌ی خدمات اطلاعاتی و حرفه‌ای در این هفته کاهش یافت که این امر ناشی از نگرانی‌ها در مورد احتمال تضعیف تقاضا برای ابزارهای سازمانی تثبیت‌شده توسط پلتفرم‌های بومی هوش مصنوعی است.

Anthropic اعلام کرد که Claude Opus 4.6 در زمینه‌ی استدلال در زمینه‌ی داده‌های طولانی و وظایف حرفه‌ای پیشرفت‌هایی داشته است. این شرکت به یک پنجره‌ی متنی یک میلیون توکنی و کسب امتیاز 76 درصدی در MRCR v2، یک معیار برای بازیابی اطلاعات پیچیده، اشاره کرد.

این شرکت همچنین اعلام کرد که این مدل در وظایف مالی و حقوقی نیز نسبت به نسخه‌های قبلی عملکرد بهتری داشته و “تیم‌های عامل” را معرفی کرده است که به چندین عامل هوش مصنوعی اجازه می‌دهد تا به صورت موازی بر روی کدنویسی و مستندسازی کار کنند.

OpenAI اندکی پس از آن، GPT-5.3 Codex را منتشر کرد و آن را به عنوان مدلی بهینه شده برای کدنویسی و تحقیق عامل‌محور معرفی کرد.

OpenAI اعلام کرد که Codex در Terminal-Bench 2.0، یک بنچمارک کدنویسی عامل‌محور، 77.3 درصد امتیاز کسب کرده است، در حالی که Claude Opus 4.6 امتیاز 65.4 درصد را به دست آورد. Codex همچنین وظایف را سریع‌تر و با استفاده از توکن‌های کمتری تکمیل کرد.

OpenAI همچنین اعلام کرد که نسخه‌های اولیه Codex به صورت داخلی برای کمک به اشکال‌زدایی آموزش و مدیریت استقرار استفاده شده است، که این امر یکی از اولین دفعاتی است که یک مدل نقش مستقیمی در تسریع توسعه‌ی خود ایفا می‌کند.

چشم‌انداز رقابت

با همه‌ی این‌ها، نتایج نشان می‌دهد که هیچ یک از این مدل‌ها برتری کلی آشکاری ندارند و مزایای عملکردی آن‌ها به اولویت‌های شرکت‌ها در زمینه‌ی استدلال حرفه‌ای یا توسعه‌ی نرم‌افزار خودکار بستگی دارد.

انتظار می‌رود گوگل نیز در ماه‌های آینده به‌روزرسانی‌هایی را برای مدل‌های Gemini خود منتشر کند، در حالی که سایر توسعه‌دهندگان هوش مصنوعی، از جمله DeepSeek، در حال آماده‌سازی نسخه‌های جدید هستند که به سرعت رقابت در این بخش می‌افزاید.

با این حال، نتایج بنچمارک به تنهایی بعید است که رهبری بازار را تعیین کند، زیرا پذیرش گسترده‌تر و استقرار سازمانی به طور فزاینده‌ای در حال شکل دادن به چشم‌انداز رقابتی است.

با ادامه‌ی رقابت و فشار بر رقبا، زمان مشخص خواهد کرد که آیا گردش کارهای مبتنی بر عامل به یک جزء اصلی از فعالیت‌های اقتصادی تبدیل می‌شود یا خیر. OpenAI و Anthropic قطعاً به این موضوع امید بسته‌اند.

دیدگاهتان را بنویسید

آدرس ایمیل شما منتشر نخواهد شد.