ثقة تيفي
أطلقت جامعة محمد بن زايد للذكاء الاصطناعي “أطلس شات”، وهو عبارة عن مجموعة من نماذج مفتوحة ومضبوطة خصيصا للدارجة–العامية في المغرب.
“الدارجة”، إحدى اللهجات التي لم تحظ باهتمام كبير على الرغم من كونها الشكل الرئيسي للتواصل اليومي لقرابة 40 مليون شخص، وفقا لـ Marktechpost متخصص في أخبار الذكاء الاصطناعي.
تم تصنيف الدارجة كلغة منخفضة الموارد. نتيجة لذلك، غالبا ما تم إهمالها من قبل مطوري نماذج اللغة الكبيرة. ويتفاقم التحدي مع مزيج الدارجة الفريد من اللغة العربية الفصحى الحديثة والأمازيغية والفرنسية والإسبانية، إلى جانب شكلها المكتوب الناشئ الذي لا يزال يفتقر إلى التوحيد القياسي.
وقد أدى ذلك إلى عدم التناسق، حيث يتم تهميش الدارجة، على الرغم من استخدامها على نطاق واسع، مما أثر على قدرة النماذج الذكاء الاصطناعي على تلبية احتياجات هؤلاء المتحدثين بشكل فعال.
ويتكون “أطلس شات” من ثلاثة نماذج بأحجام معلمات مختلفة(2B و9B و27B) تم ضبطها للغة الدارجة المغربية. تقدم مجموعة من القدرات للمستخدمين حسب احتياجاتهم.
تم ضبط النماذج للتعليمات، عبر مهام مختلفة مثل تفاعل المحادثة والترجمة والتلخيص وإنشاء المحتوى باللغة الدارجة. علاوة على ذلك، تهدف إلى تطوير البحث الثقافي من خلال فهم أفضل للتراث اللغوي المغربي.
يتم تطوير نماذج “أطلس شات” من خلال دمج موارد لغة الدارجة الحالية وإنشاء مجموعات بيانات جديدة من خلال كل من الوسائل اليدوية والاصطناعية.
والجدير بالذكر أن مجموعة بيانات Darija-SFT-Mix تتكون من 458000 عينة تعليمات، تم جمعها من الموارد الحالية ومن خلال التوليد الاصطناعي من منصات مثل ويكيبيديا ويوتيوب.
بالإضافة إلى ذلك، تمت ترجمة مجموعات بيانات تعليم اللغة الإنجليزية عالية الجودة إلى الدارجة مع مراقبة للجودة.
ومن خلال أطلس شات، وفرت جامعة محمد بن زايد للذكاء الاصطناعي أداة قوية لتعزيز التواصل وإنشاء المحتوى بالدارجة، ودعم تطبيقات مثل وكلاء المحادثة، والتلخيص الآلي، والبحث الثقافي الأكثر دقة.
ومع استمرار تطور الذكاء الاصطناعي، تعد مبادرات مثل أطلس شات حاسمة في ضمان إتاحة فوائد التكنولوجيا للجميع، بغض النظر عن اللغة التي يتحدثون بها.
مع المزيد من التحسينات والتحسينات، يستعد أطلس شات لسد فجوة الاتصال وتعزيز التجربة الرقمية لملايين المتحدثين باللغة الدارجة.