نتایج متفاوتی که از بنچمارکهای شخص ثالث و نتایج اولیه منتشر شده توسط OpenAI برای مدل هوش مصنوعی o3 به دست آمده است، پرسشهایی را در مورد شفافیت این شرکت و شیوههای تست مدلهای آن ایجاد کرده است.
زمانی که OpenAI در ماه دسامبر از مدل o3 رونمایی کرد، ادعا نمود که این مدل میتواند به کمی بیش از یک چهارم سوالات مجموعه مسائل ریاضی چالشبرانگیز FrontierMath پاسخ دهد. این امتیاز، رقبا را به طور قابل توجهی پشت سر گذاشت؛ چرا که بهترین مدل بعدی تنها قادر به پاسخگویی صحیح به حدود ۲ درصد از مسائل FrontierMath بود.
مارک چن، مدیر ارشد تحقیقات OpenAI، در یک پخش زنده اظهار داشت: «امروزه، تمام محصولات موجود در بازار کمتر از ۲ درصد [در FrontierMath] امتیاز دارند. ما [در داخل شرکت] مشاهده میکنیم که o3 در تنظیمات محاسباتی تهاجمی زمان تست، قادر به کسب بیش از ۲۵ درصد است.»
با این حال، مشخص شده است که این رقم احتمالاً یک حد بالا بوده و توسط نسخهای از o3 با قدرت محاسباتی بیشتر از مدلی که OpenAI هفته گذشته به طور عمومی عرضه کرد، به دست آمده است.
Epoch AI، موسسه تحقیقاتی پشت FrontierMath، روز جمعه نتایج بنچمارکهای مستقل خود از o3 را منتشر کرد. Epoch دریافت که o3 حدود ۱۰ درصد امتیاز کسب کرده است که به مراتب پایینتر از بالاترین امتیاز ادعا شده توسط OpenAI است.
Epoch AI در توییتی اعلام کرد: «OpenAI مدل استدلال بسیار مورد انتظار خود، o3، را به همراه o4-mini، یک مدل کوچکتر و ارزانتر که جانشین o3-mini میشود، منتشر کرده است. ما مدلهای جدید را در مجموعه بنچمارکهای ریاضی و علوم خود ارزیابی کردیم. نتایج در ادامه آمده است!»
این بدان معنا نیست که OpenAI لزوماً دروغ گفته است. نتایج بنچمارکی که این شرکت در ماه دسامبر منتشر کرد، یک امتیاز حد پایین را نشان میدهد که با امتیاز مشاهده شده توسط Epoch مطابقت دارد. Epoch همچنین اشاره کرد که تنظیمات تست آن احتمالاً با OpenAI متفاوت است و از نسخه بهروز شده FrontierMath برای ارزیابیهای خود استفاده کرده است.
Epoch نوشت: «تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی OpenAI با یک ساختار داخلی قدرتمندتر، استفاده از محاسبات بیشتر در زمان تست، یا به این دلیل باشد که آن نتایج بر روی زیرمجموعه متفاوتی از FrontierMath (۱۸۰ مسئله در frontiermath-2024-11-26 در مقابل ۲۹۰ مسئله در frontiermath-2025-02-28-private) اجرا شدهاند.»
بر اساس پستی در X از بنیاد جایزه ARC، سازمانی که یک نسخه پیش از انتشار o3 را آزمایش کرده است، مدل o3 عمومی «یک مدل متفاوت است […] که برای استفاده در چت/محصول تنظیم شده است»، که گزارش Epoch را تأیید میکند.
ARC Prize نوشت: «تمام سطوح محاسباتی منتشر شده o3 کوچکتر از نسخهای هستند که ما [بنچمارک] کردیم.» به طور کلی، انتظار میرود سطوح محاسباتی بزرگتر به امتیازات بنچمارک بهتری دست یابند.
آزمایش مجدد o3 منتشر شده بر روی ARC-AGI-1 یک یا دو روز طول خواهد کشید. از آنجایی که نسخه امروز یک سیستم اساساً متفاوت است، ما نتایج گزارش شده قبلی خود را به عنوان “پیش نمایش” تغییر نام میدهیم:
o3-preview (پایین): ۷۵.۷٪، ۲۰۰ دلار در هر وظیفه o3-preview (بالا): ۸۷.۵٪، ۳۴.۴ هزار دلار در هر وظیفه بالا از قیمت گذاری o1 pro استفاده میکند…
وندا ژو، یکی از اعضای کادر فنی OpenAI، نیز هفته گذشته در یک پخش زنده گفت که o3 در حال تولید «برای موارد استفاده در دنیای واقعی و سرعت بهینهتر شده است» در مقایسه با نسخهای که در ماه دسامبر به نمایش گذاشته شد. او افزود که در نتیجه، ممکن است «اختلافاتی» در بنچمارکها نشان دهد.
ژو گفت: «ما [بهینهسازیهایی] انجام دادهایم تا [مدل] مقرون به صرفهتر [و] به طور کلی مفیدتر شود. ما هنوز امیدواریم – هنوز فکر میکنیم – که این یک مدل بسیار بهتر است […] هنگام درخواست پاسخ، مدت زمان کمتری منتظر خواهید ماند، که در مورد این [نوع] مدلها یک مسئله واقعی است.»
البته، این واقعیت که نسخه عمومی o3 از وعدههای تست OpenAI عقبتر است، تا حدودی بیاهمیت است، زیرا مدلهای o3-mini-high و o4-mini این شرکت در FrontierMath عملکرد بهتری نسبت به o3 دارند و OpenAI قصد دارد نسخه قدرتمندتری از o3، یعنی o3-pro را در هفتههای آینده عرضه کند.
با این حال، این یادآوری دیگری است که بهترین کار این است که بنچمارکهای هوش مصنوعی را به سادگی باور نکنیم – به ویژه زمانی که منبع شرکتی است که خدماتی برای فروش دارد.

“جنجالهای” بنچمارک در صنعت هوش مصنوعی به یک اتفاق رایج تبدیل شدهاند، زیرا فروشندگان برای به دست آوردن عناوین و سهم ذهنی با مدلهای جدید رقابت میکنند.
در ماه ژانویه، Epoch به دلیل افشا نکردن بودجه دریافتی از OpenAI تا پس از اعلام o3 توسط این شرکت مورد انتقاد قرار گرفت. بسیاری از دانشگاهیانی که در FrontierMath مشارکت داشتند، تا زمانی که این موضوع علنی نشد، از دخالت OpenAI مطلع نشدند.
اخیراً، xAI ایلان ماسک به انتشار نمودارهای بنچمارک گمراهکننده برای آخرین مدل هوش مصنوعی خود، Grok 3، متهم شد. همین ماه، متا اعتراف کرد که امتیازات بنچمارک را برای نسخهای از یک مدل که با نسخهای که این شرکت در اختیار توسعهدهندگان قرار داده بود، متفاوت بود، تبلیغ کرده است.