توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه‌سازی مستندات علمی فارسی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران

3 «پژوهشگاه علوم و فناوری اطلاعات ایران» (ایرانداک)

چکیده

استخراج کلیدواژه یکی از مهمترین قدم‌های فرآیند نمایه‌سازی مستندات است. کلیدواژه‌ها توصیفگرهای مفهومی هستند که می‌توانند در جستجو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه‌های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه‌ها نقش مهمتری دارند و تخصیص کلیدواژه‌های تخصصی چالش‌برانگیزتر است چرا که این پایگاه‌ها دربرگیرنده اسناد تخصصی با حوزه‌های علمی مختلفی هستند. فرآیند نمایه-سازی دستی بسیار زمان‌بر است و با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که این فرایند با سرعت بیشتری صورت گیرد. لذا استفاده از روش‌های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه ضروری است. تحلیل آماری و معنایی اسناد و استفاده از روش‌های یادگیری ماشین از جمله روش‌های پرکاربرد در بسیاری از پایگاه‌های اطلاعات علمی دنیا است. بر همین اساس، در این پژوهش روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی بر مبنای روش‌های هوشمند پردازش متن و یادگیری ماشین ارائه شده است. این روش بر مبنای سیستم‌های پیشنهاددهنده و استدلال نمونه‌محور است که براساس آن، مجموعه‌ای از کلیدواژه‌های مرتبط با یک سند به نمایه‌ساز پیشنهاد می‌شود تا او سریعتر بتواند کلیدواژه‌های مناسب را انتخاب کند. به بیانی دیگر، ابتدا اسناد مشابه با سند جدید براساس روش‌های TFIDFو روش‌های بازنمایی کلمه-به-بردار، بازیابی شده و سپس کلیدواژه‌های کاندید از بین اسناد مشابه براساس یک تابع رتبه‌بندی انتخاب می‌شوند. روش پیشنهادی بر مجموعه‌ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده‌سازی و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A Case-Based Recommender System for Persian Scientific Document Indexing

نویسندگان [English]

  • Azadeh Mohebi 1
  • Azadeh Fakhrzdaeh 2
  • Marzieh Zarinbal 3
2 Iranian Research Institute for Information Science and Technology (IranDoc); Tehran, Iran
3 Iranian Research Institute for Information Science and Technology (IranDoc)
چکیده [English]

Keyword extraction is a key step in document indexing. Keywords are semantic and content-based descriptors of a document, which can be used in document retrieval and representation. In databases containing scientific documents, such as Ganj in Irannian Research Institue for Information Science and Technology (IranDoc), it is even more critical to assign meaningful keywords for documents, since the documents are from different academic disciplines and contain technical terms.
As the number of scientific documents grows exponentially, having an automatic and intelligent keyword extraction technique is getting more critical. There are various keyword extraction techniques that are either based on statistical features of the text or machine learning approaches, and sometimes a combination of both. In this research, we propose a new keyword extraction method for Persian scientific documents based on recommender systems and case-based reasoning. The proposed method is designed based on case-based reasoning in which the main assumption is that similar documents share similar keywords. There are two main steps in the proposed approach: first, similar documents to a given new document are retrieved based on TFIDF and word2vec model, second, the candidate keywords are extracted from retrieved documents and ranked based on a new scoring scheme, and a set of keyword are selected from the candidate keywords based on their score. The proposed method is tested and avaluated on a set of documents of Ganj database in three different subject areas (Art, Humanities and Engineering), based on precision, recall and expert panel

کلیدواژه‌ها [English]

  • Keyword Extraction
  • Recommender Systems
  • Case-Based Reasoning
  • Word2Vec Word Embedding
  • Information Retrieval
  • Machin Learning
  • Indexing