اختلاف در نتایج بنچمارک، شفافیت OpenAI در مورد مدل o3 را زیر سوال برد

نتایج متفاوتی که از بنچمارک‌های شخص ثالث و نتایج اولیه منتشر شده توسط OpenAI برای مدل هوش مصنوعی o3 به دست آمده است، پرسش‌هایی را در مورد شفافیت این شرکت و شیوه‌های تست مدل‌های آن ایجاد کرده است.

زمانی که OpenAI در ماه دسامبر از مدل o3 رونمایی کرد، ادعا نمود که این مدل می‌تواند به کمی بیش از یک چهارم سوالات مجموعه مسائل ریاضی چالش‌برانگیز FrontierMath پاسخ دهد. این امتیاز، رقبا را به طور قابل توجهی پشت سر گذاشت؛ چرا که بهترین مدل بعدی تنها قادر به پاسخگویی صحیح به حدود ۲ درصد از مسائل FrontierMath بود.

مارک چن، مدیر ارشد تحقیقات OpenAI، در یک پخش زنده اظهار داشت: «امروزه، تمام محصولات موجود در بازار کمتر از ۲ درصد [در FrontierMath] امتیاز دارند. ما [در داخل شرکت] مشاهده می‌کنیم که o3 در تنظیمات محاسباتی تهاجمی زمان تست، قادر به کسب بیش از ۲۵ درصد است.»

با این حال، مشخص شده است که این رقم احتمالاً یک حد بالا بوده و توسط نسخه‌ای از o3 با قدرت محاسباتی بیشتر از مدلی که OpenAI هفته گذشته به طور عمومی عرضه کرد، به دست آمده است.

Epoch AI، موسسه تحقیقاتی پشت FrontierMath، روز جمعه نتایج بنچمارک‌های مستقل خود از o3 را منتشر کرد. Epoch دریافت که o3 حدود ۱۰ درصد امتیاز کسب کرده است که به مراتب پایین‌تر از بالاترین امتیاز ادعا شده توسط OpenAI است.

Epoch AI در توییتی اعلام کرد: «OpenAI مدل استدلال بسیار مورد انتظار خود، o3، را به همراه o4-mini، یک مدل کوچکتر و ارزان‌تر که جانشین o3-mini می‌شود، منتشر کرده است. ما مدل‌های جدید را در مجموعه بنچمارک‌های ریاضی و علوم خود ارزیابی کردیم. نتایج در ادامه آمده است!»

این بدان معنا نیست که OpenAI لزوماً دروغ گفته است. نتایج بنچمارکی که این شرکت در ماه دسامبر منتشر کرد، یک امتیاز حد پایین را نشان می‌دهد که با امتیاز مشاهده شده توسط Epoch مطابقت دارد. Epoch همچنین اشاره کرد که تنظیمات تست آن احتمالاً با OpenAI متفاوت است و از نسخه به‌روز شده FrontierMath برای ارزیابی‌های خود استفاده کرده است.

Epoch نوشت: «تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی OpenAI با یک ساختار داخلی قدرتمندتر، استفاده از محاسبات بیشتر در زمان تست، یا به این دلیل باشد که آن نتایج بر روی زیرمجموعه متفاوتی از FrontierMath (۱۸۰ مسئله در frontiermath-2024-11-26 در مقابل ۲۹۰ مسئله در frontiermath-2025-02-28-private) اجرا شده‌اند.»

بر اساس پستی در X از بنیاد جایزه ARC، سازمانی که یک نسخه پیش از انتشار o3 را آزمایش کرده است، مدل o3 عمومی «یک مدل متفاوت است […] که برای استفاده در چت/محصول تنظیم شده است»، که گزارش Epoch را تأیید می‌کند.

ARC Prize نوشت: «تمام سطوح محاسباتی منتشر شده o3 کوچکتر از نسخه‌ای هستند که ما [بنچمارک] کردیم.» به طور کلی، انتظار می‌رود سطوح محاسباتی بزرگتر به امتیازات بنچمارک بهتری دست یابند.

آزمایش مجدد o3 منتشر شده بر روی ARC-AGI-1 یک یا دو روز طول خواهد کشید. از آنجایی که نسخه امروز یک سیستم اساساً متفاوت است، ما نتایج گزارش شده قبلی خود را به عنوان “پیش نمایش” تغییر نام می‌دهیم:

o3-preview (پایین): ۷۵.۷٪، ۲۰۰ دلار در هر وظیفه o3-preview (بالا): ۸۷.۵٪، ۳۴.۴ هزار دلار در هر وظیفه بالا از قیمت گذاری o1 pro استفاده می‌کند…

وندا ژو، یکی از اعضای کادر فنی OpenAI، نیز هفته گذشته در یک پخش زنده گفت که o3 در حال تولید «برای موارد استفاده در دنیای واقعی و سرعت بهینه‌تر شده است» در مقایسه با نسخه‌ای که در ماه دسامبر به نمایش گذاشته شد. او افزود که در نتیجه، ممکن است «اختلافاتی» در بنچمارک‌ها نشان دهد.

ژو گفت: «ما [بهینه‌سازی‌هایی] انجام داده‌ایم تا [مدل] مقرون به صرفه‌تر [و] به طور کلی مفیدتر شود. ما هنوز امیدواریم – هنوز فکر می‌کنیم – که این یک مدل بسیار بهتر است […] هنگام درخواست پاسخ، مدت زمان کمتری منتظر خواهید ماند، که در مورد این [نوع] مدل‌ها یک مسئله واقعی است.»

البته، این واقعیت که نسخه عمومی o3 از وعده‌های تست OpenAI عقب‌تر است، تا حدودی بی‌اهمیت است، زیرا مدل‌های o3-mini-high و o4-mini این شرکت در FrontierMath عملکرد بهتری نسبت به o3 دارند و OpenAI قصد دارد نسخه قدرتمندتری از o3، یعنی o3-pro را در هفته‌های آینده عرضه کند.

با این حال، این یادآوری دیگری است که بهترین کار این است که بنچمارک‌های هوش مصنوعی را به سادگی باور نکنیم – به ویژه زمانی که منبع شرکتی است که خدماتی برای فروش دارد.

“جنجال‌های” بنچمارک در صنعت هوش مصنوعی به یک اتفاق رایج تبدیل شده‌اند، زیرا فروشندگان برای به دست آوردن عناوین و سهم ذهنی با مدل‌های جدید رقابت می‌کنند.

در ماه ژانویه، Epoch به دلیل افشا نکردن بودجه دریافتی از OpenAI تا پس از اعلام o3 توسط این شرکت مورد انتقاد قرار گرفت. بسیاری از دانشگاهیانی که در FrontierMath مشارکت داشتند، تا زمانی که این موضوع علنی نشد، از دخالت OpenAI مطلع نشدند.

اخیراً، xAI ایلان ماسک به انتشار نمودارهای بنچمارک گمراه‌کننده برای آخرین مدل هوش مصنوعی خود، Grok 3، متهم شد. همین ماه، متا اعتراف کرد که امتیازات بنچمارک را برای نسخه‌ای از یک مدل که با نسخه‌ای که این شرکت در اختیار توسعه‌دهندگان قرار داده بود، متفاوت بود، تبلیغ کرده است.

مجله خبری تکنولوژی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *