اختلاف در نتایج بنچمارک، شفافیت OpenAI در مورد مدل o3 را زیر سوال برد

نتایج متفاوتی که از بنچمارک‌های شخص ثالث و نتایج اولیه منتشر شده توسط OpenAI برای مدل هوش مصنوعی o3 به دست آمده است، پرسش‌هایی را در مورد شفافیت این شرکت و شیوه‌های تست مدل‌های آن ایجاد کرده است.

زمانی که OpenAI در ماه دسامبر از مدل o3 رونمایی کرد، ادعا نمود که این مدل می‌تواند به کمی بیش از یک چهارم سوالات مجموعه مسائل ریاضی چالش‌برانگیز FrontierMath پاسخ دهد. این امتیاز، رقبا را به طور قابل توجهی پشت سر گذاشت؛ چرا که بهترین مدل بعدی تنها قادر به پاسخگویی صحیح به حدود ۲ درصد از مسائل FrontierMath بود.

مارک چن، مدیر ارشد تحقیقات OpenAI، در یک پخش زنده اظهار داشت: «امروزه، تمام محصولات موجود در بازار کمتر از ۲ درصد [در FrontierMath] امتیاز دارند. ما [در داخل شرکت] مشاهده می‌کنیم که o3 در تنظیمات محاسباتی تهاجمی زمان تست، قادر به کسب بیش از ۲۵ درصد است.»

با این حال، مشخص شده است که این رقم احتمالاً یک حد بالا بوده و توسط نسخه‌ای از o3 با قدرت محاسباتی بیشتر از مدلی که OpenAI هفته گذشته به طور عمومی عرضه کرد، به دست آمده است.

Epoch AI، موسسه تحقیقاتی پشت FrontierMath، روز جمعه نتایج بنچمارک‌های مستقل خود از o3 را منتشر کرد. Epoch دریافت که o3 حدود ۱۰ درصد امتیاز کسب کرده است که به مراتب پایین‌تر از بالاترین امتیاز ادعا شده توسط OpenAI است.

Epoch AI در توییتی اعلام کرد: «OpenAI مدل استدلال بسیار مورد انتظار خود، o3، را به همراه o4-mini، یک مدل کوچکتر و ارزان‌تر که جانشین o3-mini می‌شود، منتشر کرده است. ما مدل‌های جدید را در مجموعه بنچمارک‌های ریاضی و علوم خود ارزیابی کردیم. نتایج در ادامه آمده است!»

این بدان معنا نیست که OpenAI لزوماً دروغ گفته است. نتایج بنچمارکی که این شرکت در ماه دسامبر منتشر کرد، یک امتیاز حد پایین را نشان می‌دهد که با امتیاز مشاهده شده توسط Epoch مطابقت دارد. Epoch همچنین اشاره کرد که تنظیمات تست آن احتمالاً با OpenAI متفاوت است و از نسخه به‌روز شده FrontierMath برای ارزیابی‌های خود استفاده کرده است.

Epoch نوشت: «تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی OpenAI با یک ساختار داخلی قدرتمندتر، استفاده از محاسبات بیشتر در زمان تست، یا به این دلیل باشد که آن نتایج بر روی زیرمجموعه متفاوتی از FrontierMath (۱۸۰ مسئله در frontiermath-2024-11-26 در مقابل ۲۹۰ مسئله در frontiermath-2025-02-28-private) اجرا شده‌اند.»

بر اساس پستی در X از بنیاد جایزه ARC، سازمانی که یک نسخه پیش از انتشار o3 را آزمایش کرده است، مدل o3 عمومی «یک مدل متفاوت است […] که برای استفاده در چت/محصول تنظیم شده است»، که گزارش Epoch را تأیید می‌کند.

ARC Prize نوشت: «تمام سطوح محاسباتی منتشر شده o3 کوچکتر از نسخه‌ای هستند که ما [بنچمارک] کردیم.» به طور کلی، انتظار می‌رود سطوح محاسباتی بزرگتر به امتیازات بنچمارک بهتری دست یابند.

آزمایش مجدد o3 منتشر شده بر روی ARC-AGI-1 یک یا دو روز طول خواهد کشید. از آنجایی که نسخه امروز یک سیستم اساساً متفاوت است، ما نتایج گزارش شده قبلی خود را به عنوان “پیش نمایش” تغییر نام می‌دهیم:

o3-preview (پایین): ۷۵.۷٪، ۲۰۰ دلار در هر وظیفه o3-preview (بالا): ۸۷.۵٪، ۳۴.۴ هزار دلار در هر وظیفه بالا از قیمت گذاری o1 pro استفاده می‌کند…

وندا ژو، یکی از اعضای کادر فنی OpenAI، نیز هفته گذشته در یک پخش زنده گفت که o3 در حال تولید «برای موارد استفاده در دنیای واقعی و سرعت بهینه‌تر شده است» در مقایسه با نسخه‌ای که در ماه دسامبر به نمایش گذاشته شد. او افزود که در نتیجه، ممکن است «اختلافاتی» در بنچمارک‌ها نشان دهد.

ژو گفت: «ما [بهینه‌سازی‌هایی] انجام داده‌ایم تا [مدل] مقرون به صرفه‌تر [و] به طور کلی مفیدتر شود. ما هنوز امیدواریم – هنوز فکر می‌کنیم – که این یک مدل بسیار بهتر است […] هنگام درخواست پاسخ، مدت زمان کمتری منتظر خواهید ماند، که در مورد این [نوع] مدل‌ها یک مسئله واقعی است.»

البته، این واقعیت که نسخه عمومی o3 از وعده‌های تست OpenAI عقب‌تر است، تا حدودی بی‌اهمیت است، زیرا مدل‌های o3-mini-high و o4-mini این شرکت در FrontierMath عملکرد بهتری نسبت به o3 دارند و OpenAI قصد دارد نسخه قدرتمندتری از o3، یعنی o3-pro را در هفته‌های آینده عرضه کند.

با این حال، این یادآوری دیگری است که بهترین کار این است که بنچمارک‌های هوش مصنوعی را به سادگی باور نکنیم – به ویژه زمانی که منبع شرکتی است که خدماتی برای فروش دارد.

“جنجال‌های” بنچمارک در صنعت هوش مصنوعی به یک اتفاق رایج تبدیل شده‌اند، زیرا فروشندگان برای به دست آوردن عناوین و سهم ذهنی با مدل‌های جدید رقابت می‌کنند.

در ماه ژانویه، Epoch به دلیل افشا نکردن بودجه دریافتی از OpenAI تا پس از اعلام o3 توسط این شرکت مورد انتقاد قرار گرفت. بسیاری از دانشگاهیانی که در FrontierMath مشارکت داشتند، تا زمانی که این موضوع علنی نشد، از دخالت OpenAI مطلع نشدند.

اخیراً، xAI ایلان ماسک به انتشار نمودارهای بنچمارک گمراه‌کننده برای آخرین مدل هوش مصنوعی خود، Grok 3، متهم شد. همین ماه، متا اعتراف کرد که امتیازات بنچمارک را برای نسخه‌ای از یک مدل که با نسخه‌ای که این شرکت در اختیار توسعه‌دهندگان قرار داده بود، متفاوت بود، تبلیغ کرده است.

مجله خبری تکنولوژی

معرفی نسل جدید مدل‌های هوش مصنوعی OpenAI با تمرکز بر برنامه‌نویسی: GPT-4.1 از راه رسید

استفاده از ChatGPT با گزارش OpenAI از 200 میلیون کاربر هفتگی، به شدت افزایش یافته است.

عرضه API برای Grok 3؛ جدیدترین مدل هوش مصنوعی xAI ایلان ماسک

سردبیر

مهدی رضایی

او فارغ‌التحصیل رشته مهندسی نرم‌افزار است و فعالیت حرفه‌ای خود را در عرصه رسانه از سال ۱۳۹۷ به عنوان نویسنده در یک وبلاگ تخصصی فناوری آغاز کرده است. وی پس از کسب تجربه، به خبرگزاری‌های معتبر پیوست و در حال حاضر، خبرنگار حوزه نرم‌افزار و هوش مصنوعی در یک مجله تکنولوژی برجسته است.

اختلاف در نتایج بنچمارک، شفافیت OpenAI در مورد مدل o3 را زیر سوال برد

دیدگاهتان را بنویسید لغو پاسخ

اندرو تالاک به متا پیوست و استارتاپ Thinking Machines یکی از بنیان‌گذاران خود را از دست داد

شرکت‌های بزرگ روی هوش مصنوعی شرط‌بندی می‌کنند

دلویت روی هوش مصنوعی سرمایه‌گذاری می‌کند؛ وقتی اعتماد به فناوری با هزینه همراه است

هوش مصنوعی؛ فرصت ملی یا تکرار همان پراکندگی؟

هواوی و تراشه‌سازی در سایه تحریم‌؛ خلاقیت، ریسک یا عبور از خطوط ممنوعه

فیبر به جای مس؛ وعده پایان عصر «اینترنت لاک‌پشتی» در ایران

تراشه نوری: افزایش ۱۰۰ برابری کارایی هوش مصنوعی با نور

سکوی ملی هوش مصنوعی: فرصت طلایی برای استارت‌‌آپ‌ها در کنار زیرساخت ETL بومی

دو مشتری مرموز ۳۹ درصد از درآمد فصل دوم انویدیا را تامین کردند

درِ نارنجی و سایهٔ هوش مصنوعی؛ معمای تبلیغاتِ جدید تیلور سویفت

بازگشت بزرگ اسپرینگفیلد؛ «سیمپسون‌ها» دوباره بر پرده سینما

«زن، دوربین، نگاه»؛ بازخوانی سینمای مستند از زاویه زنان

توضیحات حسام نواب صفوی درباره شایعه “کلاهبرداری از دختر سرطانی”

«پیرپسر»؛ تصویری تکان‌دهنده از زخم‌های خانوادگی و ترومای بین‌نسلی

اندرو تالاک به متا پیوست و استارتاپ Thinking Machines یکی از بنیان‌گذاران خود را از دست داد

شرکت‌های بزرگ روی هوش مصنوعی شرط‌بندی می‌کنند

دلویت روی هوش مصنوعی سرمایه‌گذاری می‌کند؛ وقتی اعتماد به فناوری با هزینه همراه است

هوش مصنوعی؛ فرصت ملی یا تکرار همان پراکندگی؟

هوش مصنوعی راز پروفسکیت‌ها را گشود؛ چشم‌اندازی تازه برای خورشیدِ پوشیدنی

پایان پشتیبانی ویندوز ۱۰ و سه نکته مهم از دنیای فناوری

مقدمات تبدیل تلویزیون‌های هند به رایانه‌های شخصی با سرویس JioPC

شتاب گرفتن مهاجرت به ویندوز ۱۱ با نزدیک شدن به پایان عمر ویندوز ۱۰

با رسیدن هیجان رایانه‌های مجهز به هوش مصنوعی به اوج خود، اچ‌پی سه مدل جدید از لپ‌تاپ‌های EliteBook با پردازنده اینتل معرفی کرد.

لپ‌تاپ ریزر بلید ۱۶ در CES 2025 با پردازنده گرافیکی انویدیا RTX 5090 معرفی شد – اما اینتل کنار گذاشته شده است.

مطالب پیشنهادی :

دیدگاهتان را بنویسید لغو پاسخ