معرفی نسل جدید مدل‌های هوش مصنوعی OpenAI با تمرکز بر برنامه‌نویسی: GPT-4.1 از راه رسید

شرکت OpenAI روز دوشنبه از خانواده جدیدی از مدل‌های هوش مصنوعی تحت عنوان GPT-4.1 رونمایی کرد. این نامگذاری که با پسوند “4.1” همراه است، در حالی صورت می‌گیرد که پیش از این نیز نامگذاری مدل‌های این شرکت تا حدودی پیچیده به نظر می‌رسید.

این خانواده شامل مدل‌های GPT-4.1، GPT-4.1 mini و GPT-4.1 nano می‌شود که به گفته OpenAI، همگی در زمینه کدنویسی و پیروی از دستورالعمل‌ها عملکردی “فوق‌العاده” دارند. این مدل‌های چندوجهی که از طریق API این شرکت در دسترس هستند و نه ChatGPT، از یک پنجره متنی با ظرفیت یک میلیون توکن برخوردارند. این بدان معناست که آن‌ها می‌توانند تقریباً 750 هزار کلمه را به صورت یکجا پردازش کنند (طولانی‌تر از رمان “جنگ و صلح”).

عرضه GPT-4.1 در حالی صورت می‌گیرد که رقبای OpenAI مانند گوگل و Anthropic تلاش‌های خود را برای ساخت مدل‌های برنامه‌نویسی پیشرفته افزایش داده‌اند. مدل Gemini 2.5 Pro که اخیراً توسط گوگل منتشر شده و آن نیز دارای پنجره متنی یک میلیون توکنی است، رتبه بالایی را در معیارهای سنجش عملکرد کدنویسی به دست آورده است. مدل Claude 3.7 Sonnet از Anthropic و مدل ارتقا یافته V3 از استارتاپ هوش مصنوعی چینی DeepSeek نیز عملکرد مشابهی دارند.

هدف بسیاری از غول‌های فناوری، از جمله OpenAI، آموزش مدل‌های هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرم‌افزار باشند. سارا فرایر، مدیر ارشد مالی OpenAI، در یک نشست فناوری در لندن در ماه گذشته، آرزوی بزرگ این شرکت را ایجاد یک “مهندس نرم‌افزار عامل” توصیف کرد. این شرکت مدعی است که مدل‌های آینده آن قادر خواهند بود کل برنامه‌ها را به صورت سرتاسری برنامه‌نویسی کرده و جنبه‌هایی مانند تضمین کیفیت، تست خطا و نوشتن مستندات را مدیریت کنند. GPT-4.1 گامی در این راستا محسوب می‌شود.

سخنگوی OpenAI در ایمیلی به TechCrunch گفت: «ما GPT-4.1 را بر اساس بازخورد مستقیم کاربران برای استفاده در دنیای واقعی بهینه کرده‌ایم تا در زمینه‌هایی که برای توسعه‌دهندگان از اهمیت بالایی برخوردار است، بهبود یابد: کدنویسی فرانت‌اند، کاهش ویرایش‌های غیرضروری، پیروی قابل اعتماد از قالب‌ها، رعایت ساختار و ترتیب پاسخ‌ها، استفاده consistent از ابزارها و موارد دیگر. این بهبودها به توسعه‌دهندگان امکان می‌دهد تا عامل‌هایی بسازند که در انجام وظایف مهندسی نرم‌افزار در دنیای واقعی به طور قابل توجهی بهتر عمل می‌کنند.»

OpenAI ادعا می‌کند که مدل کامل GPT-4.1 در معیارهای سنجش کدنویسی، از جمله SWE-bench، عملکرد بهتری نسبت به مدل‌های GPT-4o و GPT-4o mini خود نشان می‌دهد. گفته می‌شود که مدل‌های GPT-4.1 mini و nano با کاهش اندکی در دقت، کارآمدتر و سریع‌تر هستند و OpenAI می‌گوید که GPT-4.1 nano سریع‌ترین و ارزان‌ترین مدل این شرکت تا به امروز است.

هزینه استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی 2 دلار و برای هر یک میلیون توکن خروجی 8 دلار است. هزینه GPT-4.1 mini به ترتیب 0.40 و 1.60 دلار و هزینه GPT-4.1 nano به ترتیب 0.10 و 0.40 دلار برای هر یک میلیون توکن ورودی و خروجی است.

بر اساس آزمایش‌های داخلی OpenAI، مدل GPT-4.1 که می‌تواند تعداد توکن‌های بیشتری را به طور همزمان نسبت به GPT-4o (32768 در مقابل 16384) تولید کند، در معیار SWE-bench Verified، زیرمجموعه‌ای از SWE-bench که توسط انسان تأیید شده است، بین 52% و 54.6% امتیاز کسب کرده است. (OpenAI در یک پست وبلاگی اشاره کرد که برخی از راه حل‌های مشکلات SWE-bench Verified به دلیل محدودیت‌های زیرساختی این شرکت قابل اجرا نبوده‌اند، از این رو دامنه امتیازات گزارش شده است.) این ارقام کمی کمتر از امتیازات گزارش شده توسط گوگل و Anthropic برای مدل‌های Gemini 2.5 Pro (63.8%) و Claude 3.7 Sonnet (62.3%) در همین معیار است.

در یک ارزیابی جداگانه، OpenAI عملکرد GPT-4.1 را با استفاده از معیار Video-MME که برای سنجش توانایی یک مدل در “درک” محتوای ویدیوها طراحی شده است، بررسی کرد. OpenAI ادعا می‌کند که GPT-4.1 در دسته ویدیویی “طولانی، بدون زیرنویس” به دقت بی‌سابقه 72% دست یافته است.

در حالی که GPT-4.1 در معیارهای سنجش عملکرد نسبتاً خوب عمل می‌کند و “تاریخ آگاهی” به‌روزتری دارد که به آن دیدگاه بهتری نسبت به رویدادهای جاری (تا ژوئن 2024) می‌بخشد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدل‌های امروزی نیز در انجام وظایفی که برای متخصصان ساده به نظر می‌رسند، با مشکل مواجه می‌شوند. برای مثال، بسیاری از مطالعات نشان داده‌اند که مدل‌های تولید کننده کد اغلب در رفع آسیب‌پذیری‌های امنیتی و باگ‌ها نه تنها موفق نیستند، بلکه حتی آن‌ها را معرفی می‌کنند.

OpenAI همچنین اذعان می‌کند که با افزایش تعداد توکن‌های ورودی، قابلیت اطمینان GPT-4.1 (یعنی احتمال اشتباه کردن آن) کاهش می‌یابد. در یکی از آزمایش‌های داخلی این شرکت به نام OpenAI-MRCR، دقت مدل از حدود 84% با 8000 توکن به 50% با یک میلیون توکن کاهش یافته است. به گفته این شرکت، GPT-4.1 همچنین نسبت به GPT-4o تمایل بیشتری به تفسیر “تحت‌اللفظی” دستورات دارد و گاهی اوقات نیاز به دستورالعمل‌های دقیق‌تر و صریح‌تری دارد.

مجله خبری تکنولوژی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *