وقد تعاون فريق معهد الابتكار التكنولوجي المكوّن من نخبة من الباحثين والمتخصصين في الذكاء الاصطناعي مع شركة "لايت أون" (LightOn)، وهي شركة تكنولوجيا تسمح بإطلاق العنان لإمكانات ذكاء الآلات على نطاق واسع لصالح الشركات، من أجل إحداث ثورة في نموذج معالجة اللغة العربية الطبيعية.
يتميز نموذج "نور" (NOOR) بالقدرة على تنفيذ مهام تتجاوز نطاق اللغة - ليقدم خطوط بيانات متكاملة عالية الجودة، بما في ذلك خوارزميات البحث أو ما يُعرف بـ"الزحف" و"ترشيح" العناوين والقوائم ومعالجة المحتوى على نطاق واسع.
يسمح النموذج بتسهيل التدريب الموزع والخدمة على نطاق واسع، لتقديم التطبيقات من خلال الاستدلال الفعال والنمذجة المتخصصة.
وقال الدكتور راي أو. جونسون، الرئيس التنفيذي لمعهد الابتكار التكنولوجي و"أسباير"، ذراع إدارة برامج التكنولوجيا التابعة لمجلس أبحاث التكنولوجيا المتطورة في أبوظبي في معرض تعليقه: "سيسمح هذا الانجاز بوضعنا على المسار الصحيح لتعزيز قدراتنا ومؤهلاتنا البحثية، فضلاً عن الارتقاء بمكانة أبوظبي ودولة الإمارات العربية المتحدة كمركز بحثي يتميز بالجدية.
لقد أثبتت فرقنا المرموقة من الخبراء مرة أخرى أن هذه المنطقة تتمتع بالمؤهلات اللازمة لتحقيق نتائج متقدمة في مجال البحث والتطوير، قادرة على التأثير على العالم."
من جانبها، قالت الدكتورة ابتسام المزروعي، مديرة وحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي: "لقد اكتسبت نماذج اللغات الكبيرة شعبية قوية في عالم معالجة اللغات الطبيعية.
ونحن فخورون بالإعلان عن إطلاق هذا النوذج الفريد من نوعه، والذي يحتوي على 10 مليارات من المعلمات، ما يجعل منه نموذج معالجة اللغة العربية الطبيعية الأقوى في العالم.
تعدّ مجموعة البيانات العربية الكبيرة الفريدة من نوعها والتي تم جمعها لتدريب النموذج نتيجة عدة أشهر من العمل الشاق الذي تضمن معالجة واستكشاف وترشيح مجموعة متنوعة من المصادر.
نتوجه بخالص مشاعر الشكر لكامل أعضاء الفريق الذي عمل على هذا المشروع، لجعل ’نور‘ (NOOR) نموذج الاستكشاف المفضل باللغة العربية للأكاديميين والشركات في كل مكان."
وفي معرض حديثه عن الإطلاق المرتقب للنموذج، قال البروفيسور مروان دباح منصب كبير الباحثين في قسم الذكاء الاصطناعي وأنظمة الاتصالات ووحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي: "من خلال نموذج ’نور‘ (NOOR)، تمكن معهد الابتكار التكنولوجي من توسيع نطاق النموذج العربي القياسي الحديث مستفيداً من المعرفة في مجال نماذج اللغات الكبيرة من أجل بناء خبرات متعددة التخصصات ومتطورة في هذا الجيل الجديد من أبحاث الذكاء الاصطناعي."
ومن أجل معالجة واختيار مجموعات البيانات العربية عالية الجودة عبر النطاقات الأكبر في العالم، تتولى مجموعة بيانات نموذج "نور" الفريدة من نوعها التي تضم أكثر من 30 مليار كلمة، دمج بيانات الويب مع الكتب والأشعار والمقالات الإخبارية والمعلومات التقنية لتوسيع نطاق تطبيق النموذج بشكل كبير.
وأضافت الدكتورة ابتسام المزروعي أن نموذج "نور" (NOOR) يعتمد على بنية المحولات الشعبية. وقالت: "تتميز وحدة فك الترميز الخاصة بالنموذج بأنها شبيهة من حيث تصميمها بالنموذج اللغوي التوليدي مسبق التدريب 3 (GPT-3)، وهو مبرمج لمعالجة المهام التوليدية.
وقد تمّ تحديث بنية النموذج لتعكس أحدث التطورات في عالم التعلّم الآلي، بما في ذلك التحسينات مثل التضمين الأفضل لخصائص الكلمات الدلالية.
وللمساعدة على ضمان الجودة على نطاق واسع ضمن مجموعة بيانات ’نور‘ (NOOR)، قام فريق معهد الابتكار التكنولوجي بتصميم مجموعة من أدوات الترشيح الآلية وتقنيات التعلّم الآلي.
تتولى هذه الأدوات تحديد النص ذات الصلة بالمراجع عالية الجودة، وتحمي النموذج من التعرض للرسائل الالكترونية غير المرغوب بها."
تم تدريب نموذج "نور" (NOOR) على 128 وحدة معالجة رسومات من طراز "إيه 100" (A100)، وتستفيد من نهج التوازي ثلاثي الأبعاد الحديث، فضلاً عن أدوات "ديب سبيد" (DeepSpeed) أو مكتبة تحسين التعلم العميق ومحوّل التعلّم العميق "ميجاترون" (Megatron) لتمكين توزيع اللغويات الحاسوبية، وضمان الاستخدام الفعال لموارد الأجهزة المتاحة في الوقت عينه.
كما لفتت مديرة وحدة الذكاء الاصطناعي في معهد الابتكار التكنولوجي أن هذا الإنجاز ليس سوى الخطوة الأولى في جهود الوحدة للمساهمة في تنفيذ استراتيجية الإمارات العربية المتحدة للذكاء الاصطناعي الأوسع نطاقاً.
تجدر الإشارة إلى أن النموذج دُعي "نور"، ويعني انبعاث الضوء، في خطوة من شأنها أن تثبت ارتباط نموذج اللغة العربية بتنوير العقل.