پژوهشنامه پردازش و مدیریت اطلاعات

پژوهشنامه پردازش و مدیریت اطلاعات

سیستم‌های پرسش و پاسخ محاوره‌ای برای زبان‌های کم‌منبع: چارچوب جدید تقویت‌شده با مدل‌های زبانی بزرگ

نوع مقاله : مقاله پژوهشی

نویسندگان
1 استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران،
2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران،
10.22034/jipm.2025.2072373.2101
چکیده
سامانه‌های پرسش و پاسخ محاوره‌ای با ظهور مدل‌های زبانی بزرگ به طور قابل توجهی تکامل یافته‌اند ؛ با این حال، این پیشرفت‌ها عمدتاً به نفع زبان‌های پرمنبع بوده و زبان‌های کم‌منبع را نادیده گرفته‌اند. این مقاله چارچوب نوین تقویت‌شده با مدل‌های زبان بزرگ را معرفی می‌کند که به طور خاص برای پر کردن این شکاف زبانی طراحی شده است. معماری پیشنهادی دارای شش مؤلفه است: «پردازش ورودی» برای مدیریت ویژه‌ی زبان، «هسته مدل‌ زبانی بزرگ تطبیق‌پذیر» ، «بهبود دانش» برای نگاشت بین زبانی، «مدیریت زمینه» برای راهبری کارآمد محاوره، «تولید پاسخ» همراه با انطباق فرهنگی، و «بازخورد انسانی» برای بهبود مستمر. برخلاف رویکردهای موجود، این چارچوب ملاحظات فرهنگی و زبانی را در سرتاسر فرایند پردازش لحاظ می‌کند. برای اعتبارسنجی این چارچوب، از یک ارزیابی کیفی از طریق گروه متمرکز متشکل از پنج متخصص پردازش زبان طبیعی استفاده شد. نتایج ارزیابی متخصصان، اثربخشی چارچوب پیشنهادی را در پرداختن به چالش‌های اساسی زبان‌های کم‌منبع، از جمله محدودیت داده، پیچیدگی‌های صرفی و ظرافت‌های فرهنگی، تأیید کرد. متخصصان به‌طور ویژه، رویکرد نوآورانه چارچوب در «پردازش فرهنگی یکپارچه» ، «کارایی منابع» از طریق مدیریت بهینه زمینه ، و «معماری ماژولار و مقیاس‌پذیر» را به عنوان دستاوردهای کلیدی برجسته ساختند. این پژوهش نشان می‌دهد که ادغام بازخورد انسانی و انطباق فرهنگی در یک معماری کارآمد، راه‌حلی عملی برای توسعه سیستم‌های پرسش و پاسخ محاوره‌ای در زبان‌های کم‌منبع ارائه می‌دهد.
کلیدواژه‌ها
موضوعات

عنوان مقاله English

Conversational Question and Answering Systems for Low-Resource Languages: A new framework with Large Language Models

نویسندگان English

Azadeh Mohebi 1
Safoura Aghadavoud Jolfaei 2
1 Assistant Professor in Iranian Research Institute for Information Science and Technology (IranDoc),Tehran
2 , PhD Candidate in Iranian Research Institute for Information Science and Technology (IranDoc), Tehran
چکیده English

Conversational question and answer systems have evolved significantly with the advent of large language models. However, these advances have mostly benefited high-resource languages such as English, while for low-resource languages ​​such as Persian limited resources have been developed. This paper introduces a novel framework augmented with large language models that is specifically designed to fill this linguistic gap. The proposed architecture has six components: “input processing” for language-specific management, “adaptive large language model core”, “knowledge enhancement” for cross-lingual mapping, “context management” for efficient conversational navigation, “response generation” with cultural adaptation, and “human feedback” for continuous improvement. Unlike existing approaches that treat low-resource languages ​​such as Persian as a secondary consideration, the proposed framework incorporates cultural and linguistic considerations throughout the process. The results of the evaluation of the proposed framework by experts are also presented to determine how this framework can address the challenges faced in low-resource languages, including limited training data, morphological complexity, cultural subtleties, and computational limitations.

کلیدواژه‌ها English

Conversational question and answering
Interactive question and answering
Natural language processing
Low-resource languages

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از 13 بهمن 1404

  • تاریخ دریافت 31 شهریور 1404
  • تاریخ بازنگری 21 آبان 1404
  • تاریخ پذیرش 10 آذر 1404