

بناء ذكاء اصطناعي يفهم اللهجات العربية يتطلب حل مشكلة لم تحاول معظم شركات التكنولوجيا العالمية خوض غمارها: وهي تدريب نظام واحد قادر على التعامل مع اللهجات المصرية، والشامية، والخليجية، والمغاربية جنباً إلى جنب مع اللغة العربية الفصحى الحديثة — دون فقدان الجودة.
وقد حقق معهد الابتكار التكنولوجي (TII) في أبوظبي هذا الإنجاز من خلال نموذج "فالكون-اتش 1 أرابيك" (Falcon-H1 Arabic)، عبر توسيع بيانات التدريب لتتجاوز اللغة العربية المكتوبة الرسمية لتشمل مصادر لهجية، ثم تنقيتها لضمان التنوع اللغوي عبر مختلف المناطق.1
وقال حكيم حيد، كبير الباحثين في مركز بحوث الذكاء الاصطناعي والعلوم الرقمية التابع للمعهد لصحيفة "خليج تايمز": "تم تدريب فالكون-اتش 1 أرابيك للتعامل مع مجموعة واسعة من اللهجات الأكثر انتشاراً"، مشيراً إلى أن "بيانات التدريب تم توسيعها عمداً لتتجاوز العربية الرسمية وتشمل مصادر لهجية، وجرت تصفيتها بعناية لضمان التنوع اللغوي".
ويعود التحدي التقني إلى بنية اللغة العربية ذاتها؛ حيث أوضح حيد أنها "تجمع بين الصرف الثري، وبنية الجملة المرنة، والتفاوت العالي بين الفصحى الحديثة واللهجات الإقليمية".
وتتعامل معظم أنظمة الذكاء الاصطناعي العالمية مع اللهجات كمتغيرات للغة واحدة، مطبقةً نفس نهج المعالجة المستخدم للغة الإنجليزية. وهذا النهج يفشل لأن اللغة العربية اللهجية تتضمن مفردات وتراكيب نحوية وأنماط نطق مختلفة تغير المعنى بشكل جذري.
ابقَ على اطلاع بآخر الأخبار. تابع KT على قنوات واتساب.
تطلب الحل ابتكاراً في البنية الهيكلية؛ حيث يستخدم "فالكون-اتش 1 أرابيك" نظاماً هجيناً يجمع بين تقنية "انتباه المحولات" (Transformer Attention) ونماذج الفضاء المكتبي المعروفة باسم "مومبا" (Mamba). وقال حيد: "هذا يسمح للنموذج بمعالجة المعلومات بكفاءة أكبر، خاصة في السلاسل الطويلة، مع الحفاظ على قدرات استنتاجية قوية".
وتفسر هذه الكفاءة سبب تفوق نموذج بحجم 34 مليار "بارامتر" على أنظمة تتجاوز 70 مليار بارامتر. وأشار حيد إلى أن "الأداء لا يتعلق بالضخامة فحسب، بل إن الجمع بين جودة البيانات، وتغطية اللهجات، والتحسين البرمجي، يُمكّن نموذجاً أصغر من التفوق على نماذج أكبر في اختبارات اللغة العربية".
كما تتيح نافذة السياق الخاصة بالنموذج (256,000 توكن) تحليل مستندات كاملة مع الحفاظ على التماسك. وأوضح حيد: "يمكن للمستخدمين تحليل قضايا قانونية كاملة، أو سجلات طبية، أو أوراق بحثية دفعة واحدة، وهو ما كان غير عملي سابقاً في أنظمة الذكاء الاصطناعي العربية". وتتضمن التطبيقات تحليل الوثائق القانونية دون ترجمة، وتلخيص السجلات الطبية التي تمزج بين اللغة الرسمية واللهجية، وتشغيل أنظمة الشركات باللغة العربية الأصلية.
تؤكد نتائج معهد الابتكار التكنولوجي أن أبحاث الذكاء الاصطناعي المتقدمة لم تعد حكراً على دول قليلة. وقال حيد: "يظهر أداء فالكون أن الفرق الموجودة في دولة الإمارات تساهم بابتكارات هيكلية ذات مغزى، وتبني نماذج تنافس على أعلى مستوى عالمي".
ويتماشى هذا التطوير مع أهداف حماية اللغة العربية في التكنولوجيا. وأضاف حيد: "من خلال إعطاء الأولوية لدعم اللغة العربية بما في ذلك اللهجات، يربط هذا العمل بين التطوير التكنولوجي والواقع الثقافي واللغوي"، مما يمنح المستخدمين "القدرة على التعلم والعمل والاستمتاع بالعالم السيبراني بلغتهم الأم".
ومع ذلك، لا تزال هناك فجوات كبيرة. وحدد حيد ثلاث أولويات للتطوير المستقبلي: دمج المزيد من اللهجات، خاصة تلك التي تفتقر للموارد الرقمية؛ وتحقيق تكافؤ كامل مع قدرات اللغة الإنجليزية بما في ذلك مهام الاستنتاج المتقدمة؛ والدخول في الذكاء الاصطناعي متعدد الوسائط (Multimodal) الذي يجمع بين النص والصور والصوت — وكل ذلك باللغة العربية الأصلية بدلاً من طبقات الترجمة.
وختم حيد بقوله: "من المهم دمج المزيد من اللهجات لمواصلة الجهود في الحفاظ على اللهجات ذات الموارد المحدودة. وبخلاف التوليد، يجب أن تدخل العربية مساحة الذكاء الاصطناعي كـ (مواطن من الدرجة الأولى)؛ وهذا يعني أن جميع القدرات التي توفرها الإنجليزية مثلاً، يجب أن تتوفر بالعربية وبطريقة أصلية (Native)".
ويسهم إصدار "فالكون-اتش 1 أرابيك" كنموذج مفتوح المصدر في تسريع هذا التطوير، حيث يتيح للباحثين والمطورين والمؤسسات في العالم العربي تكييف وتوسيع هذه التكنولوجيا لتناسب لهجات أو صناعات محددة، سعياً لجعل العربية "مواطناً من الدرجة الأولى" في عالم الذكاء الاصطناعي بدلاً من كونها مجرد فكرة لاحقة تعتمد على الترجمة.