استخلاص ميزات الصوت باستخدام معاملات MFCC وتوظيف الشبكات العصبية الإلتفافية CNN لتحسين أداء أنظمة التعرف على الصوت

المؤلفون

  • علي درويشو قسم الفيزياء – كلية العلوم – جامعة اللاذقية
  • فادي متوج قسم الميكاترونيك – كلية الهندسة الميكانيكية والكهربائية – جامعة اللاذقية
  • محمود محمد قسم الفيزياء – كلية العلوم – جامعة اللاذقية

الكلمات المفتاحية:

الشبكات العصبية الالتفافية (CNN) – معاملات الطيف الصوتي (MFCC) – التعلم العميق – التعرف على الصوت – استخلاص الميزات الصوتية

الملخص

يعد التعرف على الصوت البشري من التطبيقات والتوجهات الحديثة في مجال معالجة الإشارة الفيزيائية ، والتفاعل بين الإنسان والحاسوب، والأمن البيومتري.

تقدم هذه الدراسة إطاراً منهجياً متقدماً لمعالجة الإشارات الصوتية بهدف الارتقاء بدقة وكفاءة أنظمة التعرف على الصوت، وذلك من خلال التكامل بين معاملات القياس الطيفي للغلاف الترددي ميل (MFCC) وتقنيات التعلم العميق.

تبدأ المنهجية بمرحلة استخلاص الميزات، حيث تُستخدم معاملاتMFCCلتمثيل البنية الطيفية للصوت بطريقة تحاكي الخصائص الإدراكية للنظام السمعي البشري، مما يتيح الحصول على تمثيل مضغوط وذي دلالة عالية للمعلومات الصوتية.

عقب ذلك، يتم توظيف نماذج التعلم العميقوتحديداً الشبكات العصبية الالتفافية(CNN)لتحليل هذه الميزات واستخلاص الأنماط الصوتية المميزة.

تشير نتائج المحاكاة إلى أن الدمج بينMFCCونماذجCNNيحقق تفوقاً ملحوظاً مقارنة بالأساليب التقليدية في التعرف على الصوت، خصوصاً في البيئات التي تتسم بارتفاع مستويات الضجيج أو بتنوع كبير في خصائص المتحدثين.

كما تُظهر المنهجية المقترحة قدرة أعلى على التعميم وتحسين أداء النماذج في التطبيقات الواقعية.

التنزيلات

منشور

2026-06-24