خوشه‌بندی مقالات علمی بر پایه الگوریتم k_means مطالعه موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک)

نویسندگان

دانشگاه شهید باهنر کرمان

چکیده

با رشد روزافزون منابع و مقالات در سطح وب، به‌کارگیری روش‌هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می‌یابد. برای رسیدن به این هدف، به‌کارگیری تکنیک‌های متن‌کاوی، گامی ‌ارزشمند در جهت کشف دانش از مستندات متنی به شمار می‌رود. هدف اصلی این پژوهش خوشه‌بندی پایگاه «پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)» بر اساس فنون متن‌کاوی است تا مقالات موجود به چند خوشه تقسیم شوند؛ به‌طوری که مقالات خوشه‌های مختلف حداکثر تفاوت ممکن و مقالات موجود در هر خوشه بیشترین شباهت را با هم داشته باشند. مقالات حوزه‌های مرتبط با فناوری اطلاعات انتخاب شدند. بدین‌منظور، ابتدا تمام کلیدواژه‌های حوزه‌های فناوری اطلاعات بر اساس دفعات بسامد آن‌ها در مقالات پایگاه انتخاب و سپس، مقالات هر کلیدواژه از پایگاه «ایرانداک» استخراج گردید. آنگاه، با استفاده از نرم‌افزار notepad++ مجموعه داده مورد نظر ایجاد گردید. در این پژوهش برای انجام خوشه‌بندی از الگوریتم k_means و از معیار تابع فاصله اقلیدسی برای اندازه‌گیری تشابه خوشه‌ها استفاده گردید. سپس، نتایج حاصل از خوشه‌بندی مورد تجزیه و تحلیل قرار گرفت تا میزان شباهت و الگوی مناسب میان مقالات کشف شد. الگوی مورد نظر نشان داد که بیشترین میزان مشابهت میان مقالات دو خوشه داده‌کاوی و شبکه عصبی با فاصله اقلیدسی 1/365 وجود دارد و کمترین میزان شباهت میان مقالات دو خوشه بهینه‌سازی و پردازش تصویر با فاصله 1/387 گزارش شده است. 
دانش حاصل از پژوهش عبارت است از: خوشه‌بندی مقالات مرتبط با بیشترین و کمترین میزان مشابهت با یکدیگر، یافتن الگوی جدید جهت دسترسی سریع و آسان به مقالات مشابه، و کشف ارتباط پنهان میان موضوعات مختلف. این دانش به پژوهشگران کمک می‌کند که بتوانند مقالات موضوعی مرتبط با تخصص خود و مشابه با موضوع مورد مطالعه را به نحوی مطلوب‌تر شناسایی کنند.

کلیدواژه‌ها


عنوان مقاله [English]

Clustering scientific articles based on the k_means algorithm Case Study: Iranian Research Institute for information Science and Technology (IranDoc)

نویسندگان [English]

  • Adel Soleimani Nezhad
  • Mozhdeh salajegheh
  • Elham Tayyebi Nia
چکیده [English]

With increasing growth of Web-based resources and articles, the use of quick and inexpensive ways to access the texts from the vast collection of these documents is important. The main objective of this research is to cluster the database of Iranian Research Institute for Information Science and Technology (IranDoc) based on text mining techniques, so that the articles are divided into several clusters and different clusters have maximum possible difference and the articles in each cluster have the most similarity. Articles on information technology-related fields were selected. For this purpose, all the keywords of information technology fields were selected first based on their frequencies in database articles and then the articles of each keyword were extracted from the IranDoc database. Then, using notepad ++ software, the dataset was created. In this research, clustering of
k_means algorithm and Euclidean distance function criterion were used to measure the similarity of clusters. Then the results of the clustering were analyzed to find the similarity and pattern among the papers. The pattern showed that the greatest similarity is found between articles in two data mining clusters and neural network with an Euclidean distance of 1.365, and the least similarity between two cluster articles is optimization and image processing with a distance of 1.387. Knowledge from this research is to: clustering the articles related to the highest and the least degree of similarity to each other, find a new pattern for quick and easy access to similar articles, and discover hidden relationships between different topics. This knowledge helps researchers to better identify the subject-related articles related to their subject matter, which are similar to the subject matter studied.

کلیدواژه‌ها [English]

  • text mining
  • Clustering
  • k-Means Algorithm
  • Euclidean Distance Function Criterion
  • IRANDOC Database