بهینه‌سازی سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه‌بندی

نویسندگان

1 گروه علم اطلاعات و دانش شناسی، دانشگاه قم، قم ، ایران

2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران

چکیده

پژوهش حاضر با هدف ارائة روشی برای سازماندهی اسناد متنی فارسی با استفاده از تکنیک خوشه‌بندی انجام شد. مجموعه داده‌های مربوط به پایان‌نامه‌ها و رساله‌ها شامل 2943 تحقیق به‌عنوان جامعة آماری در نظر گرفته شد. جمع‌آوری داده‌ها از مجموعه داده‌های‌ مربوط به تحقیقات علمی که شامل 5000 ‌پژوهش در قالب فایل اکسل بود، انجام شد. در این پژوهش پس از تبدیل داده‌هـا به قالب ساخت‌یافتـه، عملیات پردازش با استفاده از اعمال پیش‌پردازش صورت گرفت. در مرحلة پردازش از تکنیک خوشه‌بندی برای ارائة الگوریتم پیشنهادی در راستای سازماندهی اسناد متنی فارسی بهره گرفته شد. این الگوریتم با بهبود الگوریتم K-means در جهت خوشه‌بندی اسناد ارائه شد. نتایج حاصل از ارزیابی نشان داد که الگوریتم پیشنهادی بر اساس معیارهای خارجی نسبت به دو الگوریتم K-means و K-means++ در کیفیت خوشه‌بندی اسناد تأثیر مثبتی داشت؛ به‌طوری که تحقیقات هر ردة تعیین شده در خوشة موضوعی مرتبط دارای توزیع یکنواختی شد، و به حصول هدف پژوهش حاضر منجر گردید. در جداول رده/ خوشة حاصل از دو الگوریتم K-means‌ و K-means++ توزیع غیریکنواخت تحقیقات در خوشه‌ها مشاهده شد. بنابراین، ارزیابی بر اساس معیار‌های داخلی متأثر از تراکم متفاوت خوشه‌ها و شباهت بین خوشه‌ای بود. حجم دیتاسِت نیز متأثر از راهکارهای‌ پیشنهادی برای انتخاب دیتاسِت نهایی و فرایند پژوهش نبود. بنابراین، الگوریتم پیشنهادی برای ابعاد بالای ویژگی نیز مناسب عمل می‌کند.

کلیدواژه‌ها


عنوان مقاله [English]

Optimizing the organization of Persian text documents using clustering technique

نویسندگان [English]

  • Elham Yalveh 1
  • Yaghoub Norouzi 1
  • Ashkan Khatir 2
1
2
چکیده [English]

The present study aimed to designing a method for organizing Persian text documents using the clustering technique. The data set related to theses and dissertations including 2943 researches was considered as a statistical population. Data were collected from a set of data related to scientific research, which included 5,000 researches in Excel format. In this study, after converting the data into a structured format, the processing operation was performed using preprocessing operations. In the processing stage, the clustering technique was used to present the proposed algorithm in order to organize Persian text documents. This algorithm was introduced by improving the K-means algorithm for document clustering. The results of the evaluation showed that the proposed algorithm based on external criteria had a positive effect on the clustering quality of documents compared to the two algorithms K-means and K-means++. So that the research of each designated category in the related subject cluster had a uniform distribution, and led to the achievement of the purpose of the present study. In the category/cluster tables obtained from the two algorithms K-means and K-means++, we saw a non-uniform distribution of research in clusters, so the evaluation based on internal criteria was affected by different cluster densities and inter-cluster similarity. The size of the dataset was also not affected by the proposed solutions for selecting the final dataset and the research process, so the proposed algorithm works well for the high dimensions of the feature.

کلیدواژه‌ها [English]

  • Organizing Text Documents
  • Clustering Techniques
  • Text Mining
  • Textual Data Mining
امیری، علی‌رضا. 1397. بهبود دقت خوشه‌بنـدی اسـناد متنی کلان با کمک رفع ابهام کلمات و ابزارهای کلان‌داده. پایان‌نامة ‌کارشناسی ارشد رشته مهندسی کامپیوتر- هوش مصنوعی. دانشگاه شیخ بهایی. دانشکده فنی و مهندسی.
امیـری، مریم، و حسن ختن‌لو. 1392. خوشـه‌بندی اسناد مبتنی ‌بر آنتولوژی و رویکـرد فازی. فصلنامه علمی پژوهشی فناوری اطلاعات و ارتباطات ایران.  5 (17و18): 73-96.  
بهشتـی‌پور، محمدرضـا، علی جعفـری، و مرتضی جوانبخت. 1392. الگـوریتم خوشـه­بندی اسـناد فارسی بر پایه الگـوریتم بهبودیافته و انتخاب ویژگی. هفتمین کنفرانس علمی فرماندهی و کنترل ایران. تهران، دانشگاه امام حسین.   
‌بهشتی‌پور، محمدرضا، بهروز مینایی ­بیدگلی، محمدحسین الهی­منش، و عباس غلامزاده مراغه. 1392. الگوریتم خوشه­بندی اسناد بر پایه الگوریتم K-means بهبودیافته. شانزدهمین کنفرانس دانشجویی مهندسی برق ایران.
کازرون. https://civilica.com/doc/265294 (دسترسی در 3  خرداد1400)   
پرئی، اعظم‌السادات، و حجت‌الـه حمیدی. 1396. ارائة رویکردی برای مدیریت و سازماندهی اسناد متنی با استفاده از تجزیه و تحلیل هوشمند متن. فصلنامه علمی پژوهشی پژوهشگاه علوم و فناوری اطلاعات ایران پژوهشنامه پردازش و مدیریت اطلاعات 32 (4): 1171- 1202.
خطیر، اشکان، و سهیل گنجه‌فر. 1397. تحلیل توزیع و تمرکز کلید‌واژه‌های پایان‌نامه‌ها و رساله‌ها و میزان تطابق با توصیفگرها، عنوان، و چکیده. پژوهشنامه پردازش و مدیریت اطلاعات 34 (1): 411-428.
‌رمضانی، هادی، مهدی علیپور حافظی، و عصمت مومنـی. 1393. نقشـه­های علمی: فنـون و روش­ها. فصـلنامه علمی پژوهشی ترویجعلم 5 (6): 53-84.
«روش tf-idf» https://scikit-learn.org/stable/modules/feature_extractio (دسترسی در 10 خرداد 1400).
سلیمانی‌نژاد، عادل، مژده سلاجقـه، و الهام طیبی. 1397. خوشـه‌بندی مقالات علمی بر پایـه الگـوریتم k_means مطالعـه موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک). پردازش و مدیریت اطلاعات 34:
871-896. 
عباسی چالشتری، علی، فرشاد کیومرثی، و مرضیه گرامی. 1396. متن‌کاوی توسط تکنیک خوشه‌بندی k میانگین بهینه‌شده، با استفاده از ابر‌داده‌ها به‌منظور به‌دست آوردن اطلاعات بیشتر. دوازدهمین سمپوزیوم پیشرفت‌هـای علـوم و تکنولـوژی کمیسیون دوم: سرزمین پایدار تازه‌های کامپیوتر و فناوری اطلاعات. مشهد https://civilica.com/doc/725787 (دسترسی در 29 اردیبهشت 1400).
محرابی، الهه، آزاده محبی، و عباس احمدی. 1400. بهبود الگوریتم Rake برای استخراج کلیدواژه از متون علمی فارسی. مطالعه موردی: پایان‌نامه‌ها و رساله‌های فارسی. پژوهشنامه پردازش و مدیریت اطلاعات 37 (1): 197-228.
یلوه، الهام، یعقوب نوروزی، و اشکان خطیر. 1400. مروری نظام‌مند بر پژوهش‌های بهبود الگوریتم کا-میانه برای
خوشه‌بندی داده‌ها. پژوهشنامه پردازش و مدیریت اطلاعات ۳۷ (۲): 527-556.   
Aliwy, A. H., K. B. Aljanabi, & H. A. Alameen. 2022. Arabic text clustering technique to improve information retrieval. Paper presented at the AIP Conference Proceedings.
Awawdeh, S., A. Edinat, A. & Sleit. 2019. An Enhanced K-means Clustering Algorithm for Multi-attributes Data. International Journal of Computer Science and Information Security (IJCSIS) 17 (2): 1-6.
Bide, P., & R. Shedge. 2015. Improved Document Clustering using k-means algorithm. Paper presented at the 2015 IEEE International Conference on Electrical, Computer and Communication Technologies (ICECCT). Coimbatore, India.
Fahim, A. 2021. K and starting means for k-means algorithm. Journal of Computational Science 55: 101445.
Fayyad, U., G. Piatetsky-Shapiro, & P. Smyth. 1996. From data mining to knowledge discovery in databases. AI magazine 17 (3): 37-54.
Fränti, P., & S. Sieranoja. 2019. How much can k-means be improved by using better initialization and repeats? Pattern Recognition 93: 95-112.
Guha, S., R. Rastogi, & K. Shim. 1998. CURE: An efficient clustering algorithm for large databases. ACM Sigmod record 27 (2): 73-84.
Halkidi, M., Y. Batistakis, & M. Vazirgiannis. 2001. On clustering validation techniques. Journal of intelligent information systems 17 (2): 107-145.
Han, J. M. Kamber, & J.  Pei. 2012. Data mining: concepts and techniques. Waltham, MA.: Morgan Kaufman Publishers.
Jain, A. K., M. N, Murty, & P. J. Flynn. 1999. Data clustering: a review. ACM computing surveys (CSUR) 31 (3): 264-323.
Kalra, M., N. Lal, & S. Qamar. 2018. K-mean clustering algorithm approach for data mining of heterogeneous data. In Information and Communication Technology for Sustainable Development (pp. 61-70). Singapore: Springer.
Kharazi, Hamid.2015. Persian Stop Word List. https://github.com/kharazi/persian-stopwords (accessed: May 31, 2021)
Kim, H., H, K. Kim, & S. Cho. 2020. Improving spherical k-means for document clustering: Fast initialization, sparse centroid projection, and efficient cluster labeling. Expert Systems with Applications 150: 113288.
Kokatnoor, S. A., & B. Krishnan. 2022. Root cause analysis of COVID-19 cases by enhanced text mining process. International Journal of Electrical & Computer Engineering (2088-8708), 12 (2): 1807-1817.
Liu, F., D. Yang, Y. Liu, Q. Zhang, S. Chen, W. Li, … & X. Wang. 2022. Use of latent profile analysis and k-means clustering to identify student anxiety profiles. BMC psychiatry 22 (1): 1-11.
Maedeh, A., & K. Suresh. 2013. Design of efficient k-means clustering algorithm with improved initial centroids. MR International Journal of Engineering and Technology 5 (1): 33-37.
Moodi, F., & H. Saadatfar. 2021. An improved K‐means algorithm for big data. IET Software. 16 (1): 48-59.
Rose, S., D. Engel, N. Cramer, & W. Cowley. 2010. Automatic keyword extraction from individual documents. Text mining: applications and theory 1: 1-20.
Saklecha, A., & J. Raikwal. 2017. Enhanced K-Means Clustering Algorithm Using Collaborative Filtering Approach. Orintal Journal of Computer Science & Technology 10 (2): 474-479.
Salloum, S. A., M. Al-Emran, A. A. Monem, & K. Shaalan. 2018. Using text mining techniques for extracting information from research articles. In Intelligent natural language processing: trends and applications (pp. 373-397). Springer.
Steinbach, M., L. Ertöz, & V. Kumar. 2004. The challenges of clustering high dimensional data. In New directions in statistical physics (pp. 273-309). Berlin, Heidelberg: Springer.
Steinbach, M., G. Karypis, V. & Kumar. 2000. A comparison of document clustering techniques. Paper presented at the TextMining Workshop at KDD2000 (May 2000). Boston
Taihao, L., N. Tuya, Z. Jianshe, R. Fuji, & L. Shupeng. 2020. An Improved K-Means Algorithm Based on Initial Clustering Center Optimization. ZTE Communications 15 (S2): 43-46.
Thilagaraj, T., & N. Sengottaiyan. 2019. Implementation of an Improved K-Means Clustering Algorithm for Balanced Clusters. Pramana Research Journal 9 (6): 352-360.
Weiss, S. M., N. Indurkhya, & T. Zhang. 2010. Fundamentals of predictive text mining. Springer Science & Business Media.
Zhao, Y., & X. Zhou. 2021. K-means Clustering Algorithm and Its Improvement Research. Paper presented at the Journal of Physics: Conference Series. Nanjing, China.
Zheng, L. 2020. Improved K-Means Clustering Algorithm Based on Dynamic Clustering. International Journal of Advanced Research in Big Data Management System 4: 17-26.
Zhu, A., Z.  Hua, Y. Shi, Y. Tang, & L. Miao. 2021. An Improved K-Means Algorithm Based on Evidence Distance. Entropy 23 (11): 1550.