رونمایی شرکت چینی Alibaba از هوش مصنوعی رقیب OpenAI o1
این مدل که در بنچمارکهای ریاضی از o1 عملکرد بهتری داشته است، فعلاً بهصورت آزمایشی در دسترس قرار دارد.
به گزارش دنده6 : شرکت چینی Alibaba از مدل هوش مصنوعی دارای قابلیت استدلال جدیدی با نام Qwen with Questions (یا QwQ) رونمایی کرده است که رقیب جدید مدل o1 از OpenAI به حساب میآید.
مدلی که Alibaba معرفی کرده، شامل 32.5 میلیارد پارامتر است و میتواند به درخواستهایی با حداکثر 32 هزار توکن پاسخ بدهد. مانند دیگر مدلهای بزرگ دارای قابلیت استدلال (LRM)، هوش مصنوعی QwQ نیز در طول استنتاج خود برای بررسی پاسخهایی که میخواهد به کاربر ارائه کند و تصحیح اشتباهات، از چرخههای محاسباتی بیشتری استفاده میکند.
به همین دلیل برای کارهایی که به استدلال منطقی و برنامهریزی نیاز دارند، مانند ریاضی و کدنویسی مناسبتر است.
عملکرد هوش مصنوعی استدلالگر QwQ در ریاضی و کدنویسی
طبق آزمایشهای این شرکت، QwQ در بنچمارکهای AIME و MATH که توانایی مدل در حل مسائل ریاضی را ارزیابی میکنند، o1-preview را شکست داده است. همچنین در بنچمارک GPQA (برای ارزیابی استدلال علمی) بهتر از o1-mini بوده است اما در زمینه کدنویسی، بنچمارک LiveCodeBench عملکرد بهتر o1 را نشان داده است، هرچند عملکرد QwQ از مدلهای دیگر مانند GPT-4o و Claude 3.5 Sonnet بهتر بوده است.
هوش مصنوعی Alibaba فعلاً بهصورت پیشنمایش ارائه شده. با این شرایط میتوان گفت نسخهای با عملکرد بهتر در آینده عرضه خواهد شد. این شرکت در بیانیه مربوط به معرفی مدل خود درباره عملکرد آن میگوید:
«از طریق اکتشافات عمیق و آزمایشهای بیشمار خود، چیزی بسیار محسوس را کشف کردیم: وقتی زمانی را به اندیشیدن، پرسش و تأمل اختصاص میدهیم، درک مدل از ریاضیات و برنامهنویسی مانند گلی در برابر خورشید شکوفا میشود… این فرایند انعکاس دقیق و دروننگری منجر به پیشرفتهای قابلتوجهی در حل مشکلات پیچیده میشود.»
علیبابا درباره دادهها یا فرایندی برای آموزش مدل خود استفاده کرده هیچ مقالهای منتشر نکرده اما باتوجهبه اینکه QwQ مدلی متنباز است (برخلاف o1) «فرایند تفکر» آن پنهان نیست و میتوان برای فهمیدن این موضوع که مدل هنگام حل مشکلات چگونه استدلال میکند، سراغ متن آن رفت.
همچنین این شرکت اشاره کرده QwQ در برخی مواقع با محدودیتهایی مانند ترکیب زبانها یا گیرافتادن در حلقههای استدلال مواجه میشود. هماکنون از طریق Hugging Face میتوانید نسخه آزمایشی آن را امتحان کنید.