شرکت OpenAI روز دوشنبه از خانواده جدیدی از مدلهای هوش مصنوعی تحت عنوان GPT-4.1 رونمایی کرد. این نامگذاری که با پسوند “4.1” همراه است، در حالی صورت میگیرد که پیش از این نیز نامگذاری مدلهای این شرکت تا حدودی پیچیده به نظر میرسید.
این خانواده شامل مدلهای GPT-4.1، GPT-4.1 mini و GPT-4.1 nano میشود که به گفته OpenAI، همگی در زمینه کدنویسی و پیروی از دستورالعملها عملکردی “فوقالعاده” دارند. این مدلهای چندوجهی که از طریق API این شرکت در دسترس هستند و نه ChatGPT، از یک پنجره متنی با ظرفیت یک میلیون توکن برخوردارند. این بدان معناست که آنها میتوانند تقریباً 750 هزار کلمه را به صورت یکجا پردازش کنند (طولانیتر از رمان “جنگ و صلح”).
عرضه GPT-4.1 در حالی صورت میگیرد که رقبای OpenAI مانند گوگل و Anthropic تلاشهای خود را برای ساخت مدلهای برنامهنویسی پیشرفته افزایش دادهاند. مدل Gemini 2.5 Pro که اخیراً توسط گوگل منتشر شده و آن نیز دارای پنجره متنی یک میلیون توکنی است، رتبه بالایی را در معیارهای سنجش عملکرد کدنویسی به دست آورده است. مدل Claude 3.7 Sonnet از Anthropic و مدل ارتقا یافته V3 از استارتاپ هوش مصنوعی چینی DeepSeek نیز عملکرد مشابهی دارند.
هدف بسیاری از غولهای فناوری، از جمله OpenAI، آموزش مدلهای هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار باشند. سارا فرایر، مدیر ارشد مالی OpenAI، در یک نشست فناوری در لندن در ماه گذشته، آرزوی بزرگ این شرکت را ایجاد یک “مهندس نرمافزار عامل” توصیف کرد. این شرکت مدعی است که مدلهای آینده آن قادر خواهند بود کل برنامهها را به صورت سرتاسری برنامهنویسی کرده و جنبههایی مانند تضمین کیفیت، تست خطا و نوشتن مستندات را مدیریت کنند. GPT-4.1 گامی در این راستا محسوب میشود.

سخنگوی OpenAI در ایمیلی به TechCrunch گفت: «ما GPT-4.1 را بر اساس بازخورد مستقیم کاربران برای استفاده در دنیای واقعی بهینه کردهایم تا در زمینههایی که برای توسعهدهندگان از اهمیت بالایی برخوردار است، بهبود یابد: کدنویسی فرانتاند، کاهش ویرایشهای غیرضروری، پیروی قابل اعتماد از قالبها، رعایت ساختار و ترتیب پاسخها، استفاده consistent از ابزارها و موارد دیگر. این بهبودها به توسعهدهندگان امکان میدهد تا عاملهایی بسازند که در انجام وظایف مهندسی نرمافزار در دنیای واقعی به طور قابل توجهی بهتر عمل میکنند.»
OpenAI ادعا میکند که مدل کامل GPT-4.1 در معیارهای سنجش کدنویسی، از جمله SWE-bench، عملکرد بهتری نسبت به مدلهای GPT-4o و GPT-4o mini خود نشان میدهد. گفته میشود که مدلهای GPT-4.1 mini و nano با کاهش اندکی در دقت، کارآمدتر و سریعتر هستند و OpenAI میگوید که GPT-4.1 nano سریعترین و ارزانترین مدل این شرکت تا به امروز است.
هزینه استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی 2 دلار و برای هر یک میلیون توکن خروجی 8 دلار است. هزینه GPT-4.1 mini به ترتیب 0.40 و 1.60 دلار و هزینه GPT-4.1 nano به ترتیب 0.10 و 0.40 دلار برای هر یک میلیون توکن ورودی و خروجی است.
بر اساس آزمایشهای داخلی OpenAI، مدل GPT-4.1 که میتواند تعداد توکنهای بیشتری را به طور همزمان نسبت به GPT-4o (32768 در مقابل 16384) تولید کند، در معیار SWE-bench Verified، زیرمجموعهای از SWE-bench که توسط انسان تأیید شده است، بین 52% و 54.6% امتیاز کسب کرده است. (OpenAI در یک پست وبلاگی اشاره کرد که برخی از راه حلهای مشکلات SWE-bench Verified به دلیل محدودیتهای زیرساختی این شرکت قابل اجرا نبودهاند، از این رو دامنه امتیازات گزارش شده است.) این ارقام کمی کمتر از امتیازات گزارش شده توسط گوگل و Anthropic برای مدلهای Gemini 2.5 Pro (63.8%) و Claude 3.7 Sonnet (62.3%) در همین معیار است.
در یک ارزیابی جداگانه، OpenAI عملکرد GPT-4.1 را با استفاده از معیار Video-MME که برای سنجش توانایی یک مدل در “درک” محتوای ویدیوها طراحی شده است، بررسی کرد. OpenAI ادعا میکند که GPT-4.1 در دسته ویدیویی “طولانی، بدون زیرنویس” به دقت بیسابقه 72% دست یافته است.
در حالی که GPT-4.1 در معیارهای سنجش عملکرد نسبتاً خوب عمل میکند و “تاریخ آگاهی” بهروزتری دارد که به آن دیدگاه بهتری نسبت به رویدادهای جاری (تا ژوئن 2024) میبخشد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدلهای امروزی نیز در انجام وظایفی که برای متخصصان ساده به نظر میرسند، با مشکل مواجه میشوند. برای مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولید کننده کد اغلب در رفع آسیبپذیریهای امنیتی و باگها نه تنها موفق نیستند، بلکه حتی آنها را معرفی میکنند.
OpenAI همچنین اذعان میکند که با افزایش تعداد توکنهای ورودی، قابلیت اطمینان GPT-4.1 (یعنی احتمال اشتباه کردن آن) کاهش مییابد. در یکی از آزمایشهای داخلی این شرکت به نام OpenAI-MRCR، دقت مدل از حدود 84% با 8000 توکن به 50% با یک میلیون توکن کاهش یافته است. به گفته این شرکت، GPT-4.1 همچنین نسبت به GPT-4o تمایل بیشتری به تفسیر “تحتاللفظی” دستورات دارد و گاهی اوقات نیاز به دستورالعملهای دقیقتر و صریحتری دارد.