بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه دادههای متنی ذخیره شدهاست که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتابها، ایمیلها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار میکند. در این میان خلاصهسازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران میکاهد. خلاصهسازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روشهای پردازش زبان طبیعی دقت خلاصههای استخراجی بهبود مییابد و و روشی برای اصلاح الگوریتمها و معیارهای امتیازدهی به جملات، ارائه میشود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده میشود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصهسازی افزایش مییابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروشهای مبتنی بر گراف شباهت بکارگرفته میشود بهگونهای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف میشود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی میشود.
بازنشر اطلاعات | |
![]() |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |