تحلیل توزیع و تمرکز کلیدواژه‌های پارساها: میزان تطابق با توصیفگرها، عنوان، و چکیده

نویسندگان

1 پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک)

2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)؛ استادتمام دانشگاه بوعلیسینا؛ دانشکده مهندسی؛ گروه برق؛

چکیده

نمایه‌ها و چکیده‌های یک متن خلاصه‌ای از متن را در اختیار خواننده قرار می‌دهند. پس، می‌توان از آن‌ها برای درک سریع و بازیابی سند استفاده کرد. از آنجا که بخش عمده‌ای از فعالیت‌های علمی فارسی در کشور ایران را پارسا‌ها تشکیل می‌دهند، در این پژوهش نمایه‌سازی پارسا‌ها از دو دیدگاه نویسنده پارسا و نمایه‌ساز حرفه‌ای مورد بررسی قرار خواهد گرفت. سپس، این نمایه‌ها با عنوان پارساها مورد بررسی قرار می‌گیرند تا میزان انطباق با کلیدواژه‌های عنوانی به‌دست آید. از سوی دیگر، با بررسی کلی مجموعه‌ای از نمایه‌ها و چکیده‌ها علاوه بر قابلیت بهبود در بازیابی اطلاعات برای محقق، حوزه فعالیتی که بیشتر اسناد بر روی آن تمرکز کرده‌اند، مشخص می‌شود. علاوه بر آن، در این پژوهش وجود نمایه‌ها و توزیع آن‌ها در چکیده بررسی می‌شود. از توزیع کلیدواژه‌ها در چکیده می‌توان در استخراج خودکار کلیدواژه‌ها از چکیده پارساها در کارهای آتی استفاده نمود. این پژوهش بر روی پارسا‌های موجود در پایگاه داده «پژوهشگاه علوم و فناوری اطلاعات ایران» که منبع گردآوری پارسا‌های فارسی است، انجام شده است. روش پژوهش به این صورت است که ‌بعد از گردآوری داده‌ها، پارسا‌هایی که اطلاعات کافی ندارند، پالایه شده و بقیه «پارسا‌ها» توسط برنامه‌ای که برای پردازش متن چکیده‌ و نمایه‌های پارسا‌ها نوشته‌ایم، مورد تحلیل
قرار خواهند گرفت. سپس، اطلاعات به‌دست‌آمده با استفاده از آمار توصیفی شرح داده‌ خواهد شد. بررسی انجام‌شده در این پژوهش نشان داده است که عموماً نمایه‌های انتخاب‌شده (بیش از 60 درصد) توسط نویسنده و نمایه‌ساز حرفه‌ای از 40 درصد ابتدایی چکیده انتخاب‌ شده‌اند. دیگر تحلیل‌های آماری این پژوهش نشان می‌دهند که میزان انطباق بین توصیفگرها و کلیدواژه‌ها 8 درصد است. این اختلاف نشان‌دهنده میزان تفاوت نظر زیاد بین نویسندگان پارسا‌ها و نمایه‌سازان است. با بهره‌گیری از این اختلاف و با تجمیع کلمات و غنی‌کردن کلیدواژه‌های سیستم بازیابی اطلاعات می‌توان در بهبود‌ بازیابی اطلاعات نیز استفاده کرد.

کلیدواژه‌ها


عنوان مقاله [English]

The Analysis of the Distribution and Focus of Keywords in Theses and Dissertations and Compliance with Descriptors, Title, and Abstract

نویسندگان [English]

  • Ashkan Khatir 1
  • Soheil Ganjefar 2
چکیده [English]

Index terms provided by authors and professional indexers are used in traditional information retrieval schemes. However, abstracts ideally contain the core message of a document. This can potentially give us the opportunities to use the abstracts to automatically extract index terms. This work is an effort to increase the accuracy of keyword extraction mechanism by adding a temporal weighting to candidate. In addition, this work can be used to research trend analysis and shows where the ongoing research is headed in Iranian Theses and Dissertations (TDs). To achieve the aforementioned objectives, we studied on more than 500 samples in different engineering research area from 50 different universities 1) the correlation between the authors and professional indexers keywords. We observed only 8% similarity between these two indices. 2) We studied the correlation between the index terms and words in abstract and title. We found that 40% of author keywords are extracted from first 20% of the abstract (This figure changes to 45% for professional indexer) and 24% from the second 20% (19% from the next 20%) This finding can be further used to narrow down the input dimensions for the various machine learning schemes for automatic keyword extraction. 3) Using some classification schemes it can be perceived that the most of the ongoing research in Iran is headed toward neural network and optimization.

کلیدواژه‌ها [English]

  • Indexing
  • Descriptors
  • Keyword Distribution
  • Research Focus Area