تحسين أنظمة التعرف التلقائي على الكلام باستخدام نموذج Conformer وتقنيات تقليل السمات

المؤلفون

  • راغب طعمه قسم هندسة تكنولوجيا المعلومات - كلية هندسة تكنولوجيا المعلومات والاتصالات - جامعة طرطوس – سوريا.
  • احمد حكمات محمد هندسة تكنولوجيا المعلومات-كلية هندسة تكنولوجيا المعلومات والاتصالات-جامعة طرطوس-سوريا.

الكلمات المفتاحية:

التعلم العميق، التعرف التلقائي على الكلام، الشبكات العصبونية، معدل الخطأ في الكلمات، تخفيض السمات، Fbank ، Conformer.

الملخص

يُعد التعرف التلقائي على الكلام (Automatic Speech Recognition - ASR) من المجالات الرائدة في تقنيات الذكاء الاصطناعي والتعلم العميق، لما له من تطبيقات واسعة في المساعدات الرقمية، وتحويل الكلام إلى نص، والتفاعل الصوتي في الأجهزة الذكية. تهدف هذه الدراسة إلى تقديم إطار منهجي محسن لتعزيز كفاءة ودقة أنظمة ASR، بالاعتماد على تقنيات معالجة صوتية متقدمة وبنية نمذجة هجينة فعالة.

يعتمد النظام المقترح على استخدام طيف الطاقة لبنوك المرشحات (Filter Bank Energies - Fbank) كبديل عن المعاملات الطيفية التقليدية مثل (Mel-Frequency Cepstral Coefficients - MFCC)، لما توفره من معلومات طيفية دقيقة تساعد على تحسين تمييز الأنماط الصوتية. كما تم توظيف تقنية SpecAugment، القائمة على التحوير الزمني والترددي، بهدف زيادة تنوع البيانات المُستخدمة في التدريب وتعزيز قدرة النموذج على التعميم في بيئات صوتية متنوعة. في بناء النموذج، تم اعتماد بنية Conformer، وهي بنية هجينة تدمج بين الشبكات الالتفافية (Convolutional ‎Neural Networks - CNNs) والمحوّلات (Transformers)، مما يُمكّن النموذج من التقاط الأنماط الصوتية الزمنية والمحلية والعالمية بكفاءة أعلى. وقد تميز النظام المقترح كذلك بتقليل عدد السمات الصوتية إلى 53 سمة فقط، مما أسهم في تقليل التعقيد الحسابي وتقليل استهلاك الموارد، دون التأثير سلبًا على الأداء.

أظهرت النتائج التجريبية تفوق النموذج من حيث الكفاءة والدقة، حيث بلغ معدل الخطأ في الكلمات (WER) نحو 19%، مع وصول قيمة الخسارة (Validation Loss) إلى 0.21. وتؤكد هذه النتائج أن النظام المقترح قادر على التعامل مع تحديات بيانات الصوت الواقعية، ويُمثّل خطوة واعدة نحو تحسين أداء أنظمة التعرف التلقائي على الكلام. كما تُمهّد هذه الدراسة الطريق لمزيد من الأبحاث المستقبلية التي تستهدف تحسين البنى المعمارية للنماذج ودمج تقنيات تعلم جديدة.

التنزيلات

منشور

2026-04-01