شرکتهای OpenAI و Anthropic در روز پنجشنبه و با فاصلهی زمانی کمی از یکدیگر، از مدلهای هوش مصنوعی پرچمدار جدید خود رونمایی کردند. این اقدام، رقابت فزاینده میان توسعهدهندگان پیشرو برای تسلط بر نرمافزارهای سازمانی و ابزارهای پیشرفتهی کدنویسی را برجسته میکند.
معرفی مدلهای جدید
شرکت Anthropic از Claude Opus 4.6 رونمایی کرد و از پیشرفتهای آن در زمینهی استدلال در زمینهی دادههای طولانی و گردش کارهای مبتنی بر عامل خبر داد. اندکی پس از آن، OpenAI از GPT-5.3 Codex، مدلی بهینه شده برای کدنویسی عاملمحور و توسعهی نرمافزار، پرده برداشت.
این رونماییهای تقریباً همزمان، نشاندهندهی سرعت بالای نوآوری رقبا در تلاش برای به دست آوردن قراردادهای بلندمدت با مشتریان بزرگ سازمانی است.
مقایسه عملکرد
نتایج بنچمارکها نشان میدهد که این دو مدل برای نقاط قوت متفاوتی بهینه شدهاند.
بر اساس آمارهای منتشر شده توسط هر دو شرکت، Claude Opus 4.6 عملکرد قویتری در وظایف مرتبط با استدلال حقوقی و مالی نشان داد، در حالی که GPT-5.3 Codex در آزمونهای کدنویسی عاملمحور و معیارهای کارایی عملکرد بهتری داشت.
تأثیر بر بازار
این رونماییها در حالی صورت میگیرد که سرمایهگذاران در حال ارزیابی مجدد چشمانداز ارائهدهندگان نرمافزارهای سنتی هستند. سهام چندین شرکت ارائهدهندهی خدمات اطلاعاتی و حرفهای در این هفته کاهش یافت که این امر ناشی از نگرانیها در مورد احتمال تضعیف تقاضا برای ابزارهای سازمانی تثبیتشده توسط پلتفرمهای بومی هوش مصنوعی است.
Anthropic اعلام کرد که Claude Opus 4.6 در زمینهی استدلال در زمینهی دادههای طولانی و وظایف حرفهای پیشرفتهایی داشته است. این شرکت به یک پنجرهی متنی یک میلیون توکنی و کسب امتیاز 76 درصدی در MRCR v2، یک معیار برای بازیابی اطلاعات پیچیده، اشاره کرد.
این شرکت همچنین اعلام کرد که این مدل در وظایف مالی و حقوقی نیز نسبت به نسخههای قبلی عملکرد بهتری داشته و “تیمهای عامل” را معرفی کرده است که به چندین عامل هوش مصنوعی اجازه میدهد تا به صورت موازی بر روی کدنویسی و مستندسازی کار کنند.
OpenAI اندکی پس از آن، GPT-5.3 Codex را منتشر کرد و آن را به عنوان مدلی بهینه شده برای کدنویسی و تحقیق عاملمحور معرفی کرد.
OpenAI اعلام کرد که Codex در Terminal-Bench 2.0، یک بنچمارک کدنویسی عاملمحور، 77.3 درصد امتیاز کسب کرده است، در حالی که Claude Opus 4.6 امتیاز 65.4 درصد را به دست آورد. Codex همچنین وظایف را سریعتر و با استفاده از توکنهای کمتری تکمیل کرد.
OpenAI همچنین اعلام کرد که نسخههای اولیه Codex به صورت داخلی برای کمک به اشکالزدایی آموزش و مدیریت استقرار استفاده شده است، که این امر یکی از اولین دفعاتی است که یک مدل نقش مستقیمی در تسریع توسعهی خود ایفا میکند.
چشمانداز رقابت
با همهی اینها، نتایج نشان میدهد که هیچ یک از این مدلها برتری کلی آشکاری ندارند و مزایای عملکردی آنها به اولویتهای شرکتها در زمینهی استدلال حرفهای یا توسعهی نرمافزار خودکار بستگی دارد.
انتظار میرود گوگل نیز در ماههای آینده بهروزرسانیهایی را برای مدلهای Gemini خود منتشر کند، در حالی که سایر توسعهدهندگان هوش مصنوعی، از جمله DeepSeek، در حال آمادهسازی نسخههای جدید هستند که به سرعت رقابت در این بخش میافزاید.
با این حال، نتایج بنچمارک به تنهایی بعید است که رهبری بازار را تعیین کند، زیرا پذیرش گستردهتر و استقرار سازمانی به طور فزایندهای در حال شکل دادن به چشمانداز رقابتی است.
با ادامهی رقابت و فشار بر رقبا، زمان مشخص خواهد کرد که آیا گردش کارهای مبتنی بر عامل به یک جزء اصلی از فعالیتهای اقتصادی تبدیل میشود یا خیر. OpenAI و Anthropic قطعاً به این موضوع امید بستهاند.
