دراسة فعالية منهجيات تقطيع النصوص في أنظمة استرجاع المعلومات الأكاديمية العربية

المؤلفون

  • جعفر سلمان قسم تكنولوجيا المعلومات-كلية تكنولوجيا المعلومات والاتصالات-جامعة طرطوس الحكومية-طرطوس-سوريا
  • ريم مهنا قسم تكنولوجيا المعلومات-كلية تكنولوجيا المعلومات والاتصالات-جامعة طرطوس الحكومية-طرطوس-سوريا

الكلمات المفتاحية:

استرجاع المعلومات، الذكاء الاصطناعي، البحث النصي، تقطيع النص، الأنظمة الذكية، أنظمة التوليد المُعزز بالاسترجاع.

الملخص

يواجه استخراج المعلومات الدقيقة من المستندات النصية الطويلة تحديات تتعلق بالسرعة والكفاءة. وتُعد أنظمة الاسترجاع الذكية المعتمدة على تقنيات الذكاء الاصطناعي من الحلول الواعدة، خاصة عند دمجها مع النماذج اللغوية الكبيرة مثل ChatGPT، حيث تزودها بمعلومات منتقاة من مصادر موثوقة وحديثة.

يمثل هذا البحث أول دراسة تحليلية تجريبية تهدف إلى تصميم نظام استرجاع نصي أكاديمي متكامل للغة العربية، يركز على المجال الأكاديمي. يعتمد النظام على تقسيم المستندات إلى مقاطع (Chunks) واختبار أدائه عبر ثلاث منهجيات رئيسية: التقطيع الثابت، التقطيع البنيوي، والتقطيع الدلالي. وقد طُبّق أول منهجين ضمن ستة سيناريوهات مختلفة تراوحت بين ثلاث إعدادات لحجم المقطع (صغير، متوسط، كبير) مع أو بدون تداخل بين المقاطع، في حين شكّل التقطيع الدلالي السيناريو السابع. تم اختبار هذه السيناريوهات على مجموعة من المقالات العلمية المحكمة من مجلة جامعة طرطوس، بهدف تقييم استقلالية المقاطع ونجاح التقطيع، بالإضافة إلى دقة الاسترجاع عند مستويات مختلفة من النتائج المسترجعة.

أظهرت النتائج تفوق التقطيع الدلالي في تحقيق أعلى دقة عند النتيجة الأولى، مع أداء ممتاز عند السماح بإرجاع نتائج متعددة، بينما حققت المنهجيات الأخرى أداءً أقل في النتيجة الأولى لكنه تحسن بوضوح عند النظر في أول ثلاث إلى أربع نتائج.

تسهم هذه النتائج في إبراز أهمية اختيار منهجية التقطيع المناسبة لتحسين أنظمة الاسترجاع النصي، وتشكل خطوة نحو تطوير حلول أكاديمية عربية أكثر دقة وكفاءة.

التنزيلات

منشور

2026-04-01