ارائه سیستم خلاصه‌ساز متون فارسی برمبنای ویژگی‌های زبان‌شناختی و رگرسیون

سلطانی, محمود; نصیری, جلال الدین; عسگریان, احسان

doi:10.35050/JIPM010.2018.035

ارائه سیستم خلاصه‌ساز متون فارسی برمبنای ویژگی‌های زبان‌شناختی و رگرسیون

نویسندگان

محمود سلطانی ¹

جلال الدین نصیری ²

احسان عسگریان ³

¹ دانشگاه مهندسی فناوری‌های نوین قوچان

² پژوهشگاه علوم و فناوری اطلاعات (ایرانداک)

³ دانشگاه فردوسی مشهد

10.35050/JIPM010.2018.035

چکیده

گسترش روزافزون داده‌های متنی فارسی در فضای اینترنت و پیچیدگی جست‌وجو در میان انبوه این اسناد، خلاصه‌سازی خودکار متون فارسی را به یکی از زمینه‌های تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصه‌سازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که به‌صورت انتخابی و تک‌سندی است، خلاصه‌سازی را بر اساس رتبه‌بندی جملات و انتخاب مهم‌ترین آن‌ها انجام می‌دهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبان‌شناختی مستخرج از سند برای هر جمله به‌دست می‌آید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه‌ شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشرده‌سازی مورد نظر انتخاب می‌شود. این جمله علاوه بر این‌که دارای بیشترین اهمیت است، کمترین میزان شباهت با جملات انتخاب‌شده در مراحل قبلی را نیز دارد. نتایج به‌دست‌آمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصه‌ساز «ایجاز» و «فارسی‌سام» با استفاده از «پیکره پاسخ» نشان می‌‌دهد که در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل ‌شده است

کلیدواژه‌ها

خلاصه‌سازی تک‌سندی

ویژگی‌های زبان‌شناختی متن

رگراسیون خطی

عنوان مقاله English

An Automatic Persian Text Summarization System Based on Linguistic Features and Regression

نویسندگان English

Mahmood Soltani ¹

Jalal Nasiri ²

Ehsan Asgarian ³

چکیده English

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence, the weight of features is learned by a linear regression method. We select one sentence with maximum score at each step of algorithm. The score of each sentence is calculated based on two factors: first, sum of the weighted features and second, the amount of its similarity to the sentences that are selected for final summary previously. We use an automatic evaluation tool to compare our approach with other existing approaches. The result indicates that our method improves the performance of summarization.

کلیدواژه‌ها English

Single-Document Summarization

Linguistic Feature

linear regression