

مع استمرار الذكاء الاصطناعي في إعادة تشكيل الصناعات حول العالم، يكتسب تطوير تقنيات محلية الصنع ومتوافقة مع الثقافات زخمًا متزايدًا. في الإمارات العربية المتحدة، تُواجه إحدى الشركات تحديًا طويل الأمد: التعرّف الدقيق على الكلام العربي. كشفت شركة CNTXT AI، ومقرها دبي، مؤخرًا عن "مُنصت" ، وهو نموذج لتحويل الكلام إلى نص، مُصمم خصيصًا للغة العربية، مُدرّب على آلاف الساعات من البيانات الصوتية الإقليمية. تحدثنا مع محمد أبو الشيخ، الرئيس التنفيذي لشركة CNTXT AI، حول أهمية بناء هذه التقنية في الإمارات العربية المتحدة، وتعقيدات اللهجات العربية، وما يعنيه ذلك لمستقبل الذكاء الاصطناعي في المنطقة.
ما الذي ألهمك لبناء نموذج التعرف على الكلام العربي هنا في الإمارات العربية المتحدة، في حين تهيمن الشركات العالمية العملاقة بالفعل على هذا المجال؟
أنشأنا تطبيق "منصت" لأن شركات التكنولوجيا العالمية العملاقة لم تُقدم لنا حلاً لمشكلتنا. لطالما عانت تقنية الصوت العربية من نقصٍ في الخدمات. صُممت معظم النماذج للغة الإنجليزية، ثم عُدِّلت لتتوافق مع العربية، مما أدى إلى تدني الدقة وسوء فهم اللهجات. رأينا حاجةً واضحةً وشعرنا بمسؤوليةٍ للتحرك. وقد وفّرت الإمارات العربية المتحدة، برؤيتها وبنيتها التحتية التي تُركّز على الذكاء الاصطناعي، منصةَ انطلاقٍ مثالية. إنها دولةٌ ملتزمةٌ ليس فقط بتبني الذكاء الاصطناعي، بل ببنائه.
هذا ما قادنا إلى "مُنْصِت": نموذجٌ مُصمَّمٌ من الصفر للغة العربية، يعكس لهجاتنا وبياناتنا ومنطقتنا. أردنا تسريع التحوّل من مستهلكٍ للذكاء الاصطناعي إلى مُنتِجٍ له.
يتحدث الكثيرون عن محدودية استخدام اللغة العربية في التكنولوجيا، لكن قلّةً من الناس تناولوها بهذا النطاق. ما هي التحديات اللغوية أو الثقافية التي واجهتك، وكيف تغلبت عليها؟
بينما يرى الكثيرون أن اللغة العربية معقدة للغاية بالنسبة للذكاء الاصطناعي، فإننا نراها فرصة استراتيجية. لم يكن التحدي الحقيقي في اللغة، بل في البيانات. أقل من 5% من المحتوى الإلكتروني باللغة العربية، وأقل من ذلك قابل للاستخدام في التدريب. إذا كانت البيانات هي النفط الجديد، فإن البيانات غير المنظمة هي نفط خام - مليء بالإمكانيات ولكنه عديم الفائدة حتى تتم معالجته. بدون بيانات عالية الجودة، لا يمكن بناء نماذج عالية الأداء، لذلك حللنا هذه المشكلة بأنفسنا.
لقد طورنا خط أنابيب بيانات من الصفر باستخدام إشراف ضعيف - وهو نهج خوارزمي قابل للتطوير عالج أكثر من 30,000 ساعة من الصوت العربي الخام، وحسّنها إلى مجموعة بيانات نقية وعالية الجودة جاهزة للتدريب على نطاق واسع. وقد منحنا ذلك الأساس لتدريب منصت على كيفية التحدث باللغة العربية، بسرعة وتكلفة لا تضاهيهما الطرق التقليدية.
كيف حصلت على مثل هذه المجموعة الكبيرة من البيانات العربية التمثيلية، وماذا تعلمت عن أصوات المنطقة في هذه العملية؟
بنينا قاعدة بياناتنا للغة العربية من الصفر، مستعينين بأصوات من بيئات واقعية متنوعة - نشرات الأخبار، والمحادثات العابرة، والأرشيفات العامة، والتفاعلات اليومية في جميع أنحاء المنطقة. رصدنا التنوعات اللهجية، وسرعان ما أدركنا أننا نوثق التجربة المعاشة وراء هذه اللغة. هذه الاختلافات، التي تشكلت بفعل التاريخ والجغرافيا والثقافة، تتجاوز كونها لغوية، بل هي تعبيرات عن الهوية والانتماء.
CNTXT AI تسمي هذه التكنولوجيا "تكنولوجيا سيادية" - ماذا يعني ذلك بالنسبة لمكانة الإمارات العربية المتحدة في تطوير الذكاء الاصطناعي العالمي؟
الذكاء الاصطناعي السيادي يعني الملكية الكاملة للبيانات والبنية التحتية والنتائج. في الإمارات العربية المتحدة، يُترجم ذلك إلى استثمار وطني وجاهزية عالية للذكاء الاصطناعي على جميع المستويات. "مونسيت" هو ثمرة هذه الرؤية: مُصمم محليًا، ومُطبق بشكل آمن، ومتوافق مع الأولويات الرقمية للدولة.
تُحدد دولة الإمارات العربية المتحدة مسارها الخاص في مجال الذكاء الاصطناعي، من خلال بناء نماذج تعكس الهوية الإقليمية وتلبي الاحتياجات المحلية. وتُعد سيادة البيانات جوهر هذه المهمة. فالبيانات ثمينة، ويجب أن تبقى في أيدينا. وهكذا تنتقل دولة الإمارات العربية المتحدة من كونها مشاركًا إلى كونها واضعًا للمعايير في مجال الذكاء الاصطناعي العالمي، مُصدِّرةً بذلك تكنولوجيا موثوقة ومُتجذّرة ثقافيًا.
ماذا يعني هذا الاختراق بالنسبة للمتحدثين باللغة العربية يوميًا، وخاصة في مجال التعليم، أو الخدمات العامة، أو إنشاء المحتوى؟
أصبح لدى الناطقين باللغة العربية الآن نموذجٌ يفهمهم آنيًا، بدقةٍ سياقيةٍ وسرعةٍ فائقة. في مجال التعليم، يُتيح هذا النموذج أدواتٍ تُراعي اللهجات للمتعلمين في المراحل الأولى والمستخدمين الأميين. تخيّل منصاتٍ إماراتيةٍ لتكنولوجيا التعليم تُقدّم ملاحظاتٍ صوتيةً تعكس كيفية تحدث الطلاب. في القطاع الحكومي، يُعالج هذا النموذج تنوع اللهجات، لا سيما في الأوساط القضائية حيث قد تتعطل الترجمة. يكتشف "منصت" هذه الاختلافات، ويُنسَخ بدقة، ويُحوّل المُخرجات إلى صيغٍ مثل العربية الإماراتية. كما يُمكّن من نسخٍ وفهرسةٍ سريعةٍ وقابلةٍ للتطوير في وسائل الإعلام، مما يُسهّل العثور على المحتوى العربي وتوزيعه وتحقيق الربح منه.
ما هو حجم الدور الذي لعبته المواهب المحلية في بناء Munsit، وهل ترى هذا بمثابة نقطة تحول لمطوري الذكاء الاصطناعي الشباب في الإمارات العربية المتحدة؟
شُكِّلت مونسيت بمواهب محلية، فكل طبقة تعكس إسهامات إقليمية وأصواتًا إقليمية. نعم، هذه نقطة تحول. لستَ بحاجة لمغادرة المنطقة لبناء ذكاء اصطناعي رائد. البنية التحتية هنا. رأس المال هنا. الطموح هنا. النظام البيئي جاهز. يمكنك الابتكار، وليس مجرد التنفيذ، من المنطقة والريادة عالميًا. إنه إقرارٌ للجيل القادم: يمكن، وسيُبنى، ذكاء اصطناعي عالمي المستوى هنا.
ما هو التالي بالنسبة لمونسيت وللذكاء الاصطناعي الصوتي العربي ككل؟
ما التالي؟ جيل جديد من المنتجات التي تُركّز على اللغة العربية، مُصمّمة هنا ومُطبّقة عالميًا. يُمثّل "مُنصِت" طبقة الصوت في حزمة الذكاء الاصطناعي الأوسع لدينا، إلى جانب أدوات لإعداد الذكاء الاصطناعي واختباره ونشره بطريقة مستقلة. انطلاقًا من هذا الأساس، نتوسّع بسرعة: وكلاء صوت مُحدّدون للمجالات، وتبديل اللهجات متعددة اللغات. ومن أبرز التطورات: باقة تحويل النص إلى كلام العربية، التي تُطلق مع اللهجتين الإماراتية والسعودية. مع استقطاب مواهب صوتية أصلية، نُقدّم أسرع وأدقّ نظام تحويل نص إلى كلام باللغة العربية في المنطقة، وهي خطوة رئيسية نحو بنية تحتية صوتية متكاملة.
ماذا تقول لمطور أو لغوي شاب في الإمارات العربية المتحدة يحلم ببناء تقنية عالمية المستوى هنا؟
ابدأ الآن. تحرك بسرعة. لا تحتاج إلى إذن. أنت بالفعل في واحدة من أكثر دول العالم استعدادًا للذكاء الاصطناعي. لذا، ابنِ. لا تحلم فقط باللحاق بالركب، بل احلم بالريادة. لأنه إن لم نبنِ المستقبل بلغتنا، ونحل مشاكلنا بأنفسنا، فمن سيفعل؟