مايكروسوفت يطلق نموذج لغة صغير الحجم يتفوق على منافسه الأضخم

بواسطة Neruda آخر تحديث أبريل 23, 2024

حقق قسم الأبحاث في شركة “مايكروسوفت” إنجازا لافتا بإطلاق نموذج لغة صغير الحجم تحت اسم “Pi-3 Mini”، والذي يمتلك القدرة على التفوق على نماذج لغة عصبونية أكبر منه بعشر مرات على الأقل، وذلك على الرغم من امتلاكه لعدد أقل بكثير من المعايير (حوالي 3.8 مليار معيار).

وتكمن المفاجأة في قدرة “Pi-3 Mini” على العمل على هاتف ذكي حديث مثل “آيفون 14″، على عكس نماذج اللغة الكبيرة الأخرى المتطورة التي تتطلب عادة بطاقات رسومات عالية الأداء تعمل ضمن مراكز البيانات الضخمة.

شاهد/ي: حدث أبل الكبير يكشف الستار عن أجهزة IPad جديدة في 7 مايو

استند تصميم النموذج الجديد على بنية “المحول بدون ترميز” (decoder-only Transformer)، وهي تقنية شهيرة تستخدم شبكات عصبونية لتقييم سياق الكلمة واستنباط معناها. وبينما تعتمد النماذج التقليدية على تحليل النصوص قبل وبعد الكلمة لفهم معناها، فإن نموذج “المحول بدون ترميز” يكتفي فقط بالتحليل النصي الذي يسبق الكلمة المراد فهمها.

وتعتبر هذه التقنية أكثر كفاءة في توليد النصوص وتتطلب موارد أقل للتشغيل مقارنة بالنماذج القياسية.

استلهم باحثو “مايكروسوفت” تصميم “Pi-3 Mini” من سلسلة نماذج لغة لاما 2 (Llama 2) الشهيرة التي طورها مختبر “Reality Labs” التابع لشركة “ميتا”، حيث أعادوا استخدام “المرمز” (tokenizer) الخاص بها والذي يعمل على ترجمة النصوص إلى لغة يفهمها نموذج اللغة بسهولة. وهذا التشابه في التصميم يسمح باستخدام “Pi-3 Mini” مع الأدوات مفتوحة المصدر التي صُممت للتعامل مع “لاما 2”.

لكن سر تفوق “Pi-3 Mini” لا يكمن في تصميمه، بل في “ابتكارنا الكامل في مجموعة البيانات المستخدمة للتدريب”، كما أوضح باحثو “مايكروسوفت” في ورقة بحثية.

تُعد مجموعة البيانات المستخدمة في تدريب النموذج الجديد نسخة موسعة من قاعدة المعلومات التي استخدمت سابقًا لتدريب الجيل السابق من النماذج اللغوية الصغيرة، “Pi-2”. وتتكون هذه المجموعة الجديدة من 33 مليون “رمز” (token)، وهي وحدات بيانات صغيرة تضم بضعة أحرف أو أرقام.

تم تدريب “Pi-3 Mini” على معلومات “مُفلترة بعناية” تم استرجاعها من شبكة الإنترنت. ووفقًا لـ “مايكروسوفت”، حرص الباحثون على تضمين المعلومات التي من شأنها تعزيز قدرات الاستنتاج لدى النموذج، وتم استبعاد أي عناصر أخرى من مجموعة البيانات، بما في ذلك صفحات الويب التي تحتوي على بعض المعرفة المفيدة ولكنها غير كافية لتحقيق أقصى استفادة في عملية تعليم الذكاء الاصطناعي.

اتبع تدريب النموذج الجديد نهجا مرحليا، حيث تم تزويد النموذج أولا بمجموعة البيانات المفلترة التي تم جمعها من شبكة الإنترنت المفتوحة، ثم تلاه تزويده بمجموعة فرعية “أكثر تشديدا” من المجموعة الأولى بالإضافة إلى معلومات صناعية، وهي معلومات تدريبية يتم إنشاؤها بواسطة الذكاء الاصطناعي نفسه.

قيّم الباحثون قدرات النموذج الجديد بمقارنتها مع نموذجي لغة كبيرين مفتوحين المصدر. وشملت إحدى عمليات المعايرة إصدارا من “لاما 2” يتكون من 70 مليار معيار. وأظهرت النتائج تفوق “Pi-3 Mini” على “لاما 2” في اختبار تقييم الشبكات العصبونية “MMLU”، والذي يضم 16000 سؤال تغطي مجالات متنوعة.

ويُضاف إلى إنجاز النموذج “Pi-3 Mini” قدرته على العمل على هاتف ذكي حديث، مما يبرز كفاءته العالية على الرغم من صغر حجمه. كما ألمح الباحثون في ورقتهم البحثية إلى وجود إصدارين أكبر من النموذج لم يتم طرحهما بعد للجمهور، وهما يضمان 7 مليار و14 مليار معيار على التوالي، وقد حققا نتائج أعلى بنسبة 6% و9% على التوالي مقارنة بالنموذج الجديد في اختبار “MMLU”.