دوره 33، شماره 4 - ( تابستان 1397 )                   جلد 33 شماره 4 صفحات 1809-1828 | برگشت به فهرست نسخه ها

XML English Abstract Print


پژوهشگاه علوم و فناوری اطلاعات (ایرانداک)
چکیده:   (4635 مشاهده)
گسترش روزافزون دادههای متنی فارسی در فضای اینترنت و پیچیدگی جستوجو در میان انبوه این اسناد، خلاصهسازی خودکار متون فارسی را به یکی از زمینههای تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصهسازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که بهصورت انتخابی و تکسندی است، خلاصهسازی را بر اساس رتبهبندی جملات و انتخاب مهمترین آنها انجام میدهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبانشناختی مستخرج از سند برای هر جمله بهدست میآید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشردهسازی مورد نظر انتخاب میشود. این جمله علاوه بر اینکه دارای بیشترین اهمیت است، کمترین میزان شباهت با جملات انتخابشده در مراحل قبلی را نیز دارد. نتایج بهدستآمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصهساز «ایجاز» و «فارسیسام» با استفاده از «پیکره پاسخ» نشان می‌‌دهد که در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل شده است
متن کامل [PDF 1273 kb]   (1271 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: فناوري اطلاعات
دریافت: 1395/11/20 | پذیرش: 1396/6/28 | انتشار: 1397/6/24

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.