Improved Keyword Extraction for Persian Academic Texts Using RAKE Algorithm; Case Study: Persian Theses and Dissertations

Authors

Abstract

Keywords and key phrases are subsets of most relevant words or phrases that summarize contents of a document while they play a critical role in information and document retrieval. Keyword extraction from scientific text is challenging and time-consuming due to the technical and multi-subject nature of the text, while the number of documents requiring keywords is increasing. There are various algorithms and methods developed for automatic keyword extraction. Rapid Automatic Keyword Extraction (RAKE) is a popular algorithm in this domain. RAKE’s decisions are based on the observation that keywords generally contain multiple words and they rarely include stopwords and words with minimum lexical meanings. Candidate keywords are a set of single-word or multi-word sequences selected based on the scores assigned to them by some scoring criteria in RAKE.

In this research, a new modified version of RAKE algorithm is proposed in which candidate keyword scoring scheme is improved to increase precision and recall in the keyword extraction process. The proposed algorithm is to cover some of the main weaknesses of RAKE algorithm, especially in Persian scientific documents. To study the weaknesses of RAKE algorithm and evaluating the proposed modified version of RAKE, a set of metadata of Persian theses and dissertations are used. The result of test and evaluation of the proposed algorithm confirm improvement in precision, recall and F-measure.

We study effectiveness of RAKE in extracting keywords from Persian texts. We find that RAKE algorithm often extracts long phrases with redundant words on Persian texts, leading to low accuracy. In this paper, we study sources of scoring inefficiency of RAKE algorithm and propose an improved version of RAKE algorithm with a novel scoring mechanism. Our scoring mechanism overcomes some of the weaknesses in RAKE’s original scoring for Persian texts and yields better results. Our evaluations on Persian corpus demonstrate that our improved RAKE algorithm outperforms original RAKE algorithm by extracting more accurate keyword. Our results show that improved RAKE achieves more than 20% higher precision and recall on average compared to original RAKE.

Keywords


  1. باسره، مریم، ولی درهمی، و سجاد ظریفزاده. 1396. ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب. مجله مهندسی برق دانشگاه تبریز 47 (81): 857-866.
  2. باسره، مریم، ولی درهمی، و سجاد ظریفزاده. 1396. ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب. مجله مهندسی برق دانشگاه تبریز 47 (81): 857-866.
  3. بشیری، حسن، فاطمه کربلائی، و شیرین موسوی. 1384. طراحی و ارزیابی نمایهساز خودکار متون فارسی. یازدهمین کنفرانس بین‌المللی کامپیوتر تهران: انجمن کامپیوتر ایران، پژوهشگاه دانش‌های بنیادی.
  4. بشیری، حسن، فاطمه کربلائی، و شیرین موسوی. 1384. طراحی و ارزیابی نمایهساز خودکار متون فارسی. یازدهمین کنفرانس بین‌المللی کامپیوتر تهران: انجمن کامپیوتر ایران، پژوهشگاه دانش‌های بنیادی.
  5. تشکری، مسعود، و محمدرضا میبدی. 1382. ساخت یک نمایه‌ساز خودکار برای متون فارسی. یازدهمین کنفرانس مهندسی برق شیراز: دانشگاه شیراز.
  6. تشکری، مسعود، و محمدرضا میبدی. 1382. ساخت یک نمایه‌ساز خودکار برای متون فارسی. یازدهمین کنفرانس مهندسی برق شیراز: دانشگاه شیراز.
  7. توکلی‌زاده راوری، محمد. 1394. مدل دو مرحله‌ای شکاف-گلچین برای نمایه‌سازی خودکار متون فارسی. تحقیقات اطلاع‌رسانی و کتابخانه‌های عمومی 21 (1): 13-40.
  8. توکلی‌زاده راوری، محمد. 1394. مدل دو مرحله‌ای شکاف-گلچین برای نمایه‌سازی خودکار متون فارسی. تحقیقات اطلاع‌رسانی و کتابخانه‌های عمومی 21 (1): 13-40.
  9. خطیر، اشکان، و سهیل گنجه‌فر. 1397. تحلیل توزیع و تمرکز کلیدواژه‌های پارساها: میزان تطابق با توصیفگرها، عنوان، و چکیده. پژوهشنامه پردازش و مدیریت اطلاعات ۳۴ (۱): ۴۱۱-۴۲۸.
  10. خطیر، اشکان، و سهیل گنجه‌فر. 1397. تحلیل توزیع و تمرکز کلیدواژه‌های پارساها: میزان تطابق با توصیفگرها، عنوان، و چکیده. پژوهشنامه پردازش و مدیریت اطلاعات ۳۴ (۱): ۴۱۱-۴۲۸.
  11. سمائی، سید مهدی، و بهروز رسولی. 1399. شناسایی ویژگی‌های زبان علم در مدارک علمی فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.
  12. سمائی، سید مهدی، و بهروز رسولی. 1399. شناسایی ویژگی‌های زبان علم در مدارک علمی فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.
  13. کلانتری، عاطفه، عبدالرسول جوکار، سید مصطفی فخراحمد، جواد عباسپور، مسعود مرتضوی، امیر جوادی، زهرا پوربهمن. 1399. استخراج کلمات و عبارات کلیدی از متون فارسی: مروری بر پژوهش‌های صورت گرفته. پژوهشنامه پردازش و مدیریت اطلاعات http://Jipm.irandoc.ac.ir (دسترسی در 20/7/1399)
  14. کلانتری، عاطفه، عبدالرسول جوکار، سید مصطفی فخراحمد، جواد عباسپور، مسعود مرتضوی، امیر جوادی، زهرا پوربهمن. 1399. استخراج کلمات و عبارات کلیدی از متون فارسی: مروری بر پژوهش‌های صورت گرفته. پژوهشنامه پردازش و مدیریت اطلاعات http://Jipm.irandoc.ac.ir (دسترسی در 20/7/1399)
  15. محبی، آزاده، و عمار جلالی‌منش. 1398. ارائه روشی هوشمند برای استخراج کلیدواژه از مستندات علمی زبان فارسی بر اساس سیستم‌های پیشنهاددهنده. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.
  16. محبی، آزاده، و عمار جلالی‌منش. 1398. ارائه روشی هوشمند برای استخراج کلیدواژه از مستندات علمی زبان فارسی بر اساس سیستم‌های پیشنهاددهنده. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.
  17. ویسی، هادی، و نیلوفر افلاکی. 1394. استخراج کلمات کلیدی متن فارسی با استفاده از آنالیز آماری. کنفرانس بین‌المللی مهندسی و علوم کاربرد. دبی.
  18. ویسی، هادی، و نیلوفر افلاکی. 1394. استخراج کلمات کلیدی متن فارسی با استفاده از آنالیز آماری. کنفرانس بین‌المللی مهندسی و علوم کاربرد. دبی.
  19. Aggarwal, C. C., & C. Zhai. 2012. Mining Text Data. In Springer. (accessed July 18, 2020) [DOI:10.1111/j.1751-1097.1972.tb06217.x]
  20. Aggarwal, C. C., & C. Zhai. 2012. Mining Text Data. In Springer. (accessed July 18, 2020) [DOI:10.1111/j.1751-1097.1972.tb06217.x]
  21. Alami Merrouni, Z., B. Frikh, & B. Ouhbi. 2020. Automatic keyphrase extraction: a survey and trends. Journal of Intelligent Information Systems 54 (2): 391-424. [DOI:10.1007/s10844-019-00558-9]
  22. Alami Merrouni, Z., B. Frikh, & B. Ouhbi. 2020. Automatic keyphrase extraction: a survey and trends. Journal of Intelligent Information Systems 54 (2): 391-424. [DOI:10.1007/s10844-019-00558-9]
  23. Andrade, M. A., & A. Valencia. 1998. Automatic extraction of keywords from scientific text: Application to the knowledge domain of protein families. Bioinformatics 14 (7): 600-607. [DOI:10.1093/bioinformatics/14.7.600]
  24. Andrade, M. A., & A. Valencia. 1998. Automatic extraction of keywords from scientific text: Application to the knowledge domain of protein families. Bioinformatics 14 (7): 600-607. [DOI:10.1093/bioinformatics/14.7.600]
  25. Bayatmakou, F., A. Ahmadi, & A. Mohebi. 2017. Automatic query-based keyword and keyphrase extraction. 2017 Artificial Intelligence and Signal Processing Conference (AISP), 325-330. Shiraz, Iran. [DOI:10.1109/AISP.2017.8515121]
  26. Bayatmakou, F., A. Ahmadi, & A. Mohebi. 2017. Automatic query-based keyword and keyphrase extraction. 2017 Artificial Intelligence and Signal Processing Conference (AISP), 325-330. Shiraz, Iran. [DOI:10.1109/AISP.2017.8515121]
  27. Campos, R., V. Mangaravite, A. Pasquali, A. Jorge, C. Nunes, & A. Jatowt. 2020. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences 509: 257-289. [DOI:10.1016/j.ins.2019.09.013]
  28. Campos, R., V. Mangaravite, A. Pasquali, A. Jorge, C. Nunes, & A. Jatowt. 2020. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences 509: 257-289. [DOI:10.1016/j.ins.2019.09.013]
  29. Chen, J., C. Chen, & Y. Liang. 2016. Optimized TF-IDF Algorithm with the Adaptive Weight of Position of Word 133: 114-117. [DOI:10.2991/aiie-16.2016.28]
  30. Chen, J., C. Chen, & Y. Liang. 2016. Optimized TF-IDF Algorithm with the Adaptive Weight of Position of Word 133: 114-117. [DOI:10.2991/aiie-16.2016.28]
  31. Haque, M. 2019. Automatic Keyword Extraction from Bengali Text Using Improved RAKE Approach. 2018 21st International Conference of Computer and Information Technology, ICCIT 2018, 1-6. Bangladesh. [DOI:10.1109/ICCITECHN.2018.8631917]
  32. Haque, M. 2019. Automatic Keyword Extraction from Bengali Text Using Improved RAKE Approach. 2018 21st International Conference of Computer and Information Technology, ICCIT 2018, 1-6. Bangladesh. [DOI:10.1109/ICCITECHN.2018.8631917]
  33. Hosseinikhah, T., A. Ahmadi, & A. Mohebi. 2018. A new Persian text summarization approach based on natural language processing and graph similarity. Iranian Journal of Information Processing Management 33 (2): 885-914.
  34. Hosseinikhah, T., A. Ahmadi, & A. Mohebi. 2018. A new Persian text summarization approach based on natural language processing and graph similarity. Iranian Journal of Information Processing Management 33 (2): 885-914.
  35. Lau, J. H., & T. Baldwin. 2016. An empirical evaluation of doc2vec with practical insights into document embedding generation. ArXiv Preprint ArXiv:1607.05368. [DOI:10.18653/v1/W16-1609]
  36. Lau, J. H., & T. Baldwin. 2016. An empirical evaluation of doc2vec with practical insights into document embedding generation. ArXiv Preprint ArXiv:1607.05368. [DOI:10.18653/v1/W16-1609]
  37. Meng, R., S. Zhao, S. Han, D. He, P. Brusilovsky, & Y. Chi. 2017. Deep keyphrase generation. ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers), 1, 582-592. Vancouver, Canada. [DOI:10.18653/v1/P17-1054]
  38. Meng, R., S. Zhao, S. Han, D. He, P. Brusilovsky, & Y. Chi. 2017. Deep keyphrase generation. ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers), 1, 582-592. Vancouver, Canada. [DOI:10.18653/v1/P17-1054]
  39. Mihalcea Rada, T. P. 2004. TextRank: Bringing Order into Texts. Conference on Empirical Methods in Natural Language Processing. Waikiki, Honolulu.
  40. Mihalcea Rada, T. P. 2004. TextRank: Bringing Order into Texts. Conference on Empirical Methods in Natural Language Processing. Waikiki, Honolulu.
  41. Papagiannopoulou, E., & G. Tsoumakas. 2019. A review of keyphrase extraction. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 10 (September 2018), 1-45. (accessed July 18, 2020) [DOI:10.1002/widm.1339]
  42. Papagiannopoulou, E., & G. Tsoumakas. 2019. A review of keyphrase extraction. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 10 (September 2018), 1-45. (accessed July 18, 2020) [DOI:10.1002/widm.1339]
  43. Rose, S., D. Engel, N. Cramer, & W. Cowley. 2010. Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory, October 2017, 1-20. (accessed July 18, 2020) [DOI:10.1002/9780470689646.ch1]
  44. Rose, S., D. Engel, N. Cramer, & W. Cowley. 2010. Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory, October 2017, 1-20. (accessed July 18, 2020) [DOI:10.1002/9780470689646.ch1]
  45. Sathya, R., & Z. Abraham. 2013. Comparison of Supervised and Unsupervised Learning Algorithms for Pattern Classification. International Journal of Advanced Research in Artificial Intelligence 2 (2): 34-38. [DOI:10.14569/IJARAI.2013.020206]
  46. Sathya, R., & Z. Abraham. 2013. Comparison of Supervised and Unsupervised Learning Algorithms for Pattern Classification. International Journal of Advanced Research in Artificial Intelligence 2 (2): 34-38. [DOI:10.14569/IJARAI.2013.020206]
  47. Siddiqi, S., & A. Sharan. 2018. Improved RAKE Models to Extract Keywords from Hindi Documents BT - Information Systems Design and Intelligent Applications (V. Bhateja, B. Le Nguyen, N. G. Nguyen, S. C. Satapathy, & D.-N. Le (eds.); pp. 472-483). Singapore: Springer. [DOI:10.1007/978-981-10-7512-4_47]
  48. Siddiqi, S., & A. Sharan. 2018. Improved RAKE Models to Extract Keywords from Hindi Documents BT - Information Systems Design and Intelligent Applications (V. Bhateja, B. Le Nguyen, N. G. Nguyen, S. C. Satapathy, & D.-N. Le (eds.); pp. 472-483). Singapore: Springer. [DOI:10.1007/978-981-10-7512-4_47]
  49. Thushara, M. G., T. Mownika, & R. Mangamuru. 2019. A comparative study on different keyword extraction algorithms. Proceedings of the 3rd International Conference on Computing Methodologies and Communication, ICCMC 2019, Iccmc, 969-973. Erode, India. [DOI:10.1109/ICCMC.2019.8819630]
  50. Thushara, M. G., T. Mownika, & R. Mangamuru. 2019. A comparative study on different keyword extraction algorithms. Proceedings of the 3rd International Conference on Computing Methodologies and Communication, ICCMC 2019, Iccmc, 969-973. Erode, India. [DOI:10.1109/ICCMC.2019.8819630]
  51. Timonen, M., T. Toivanen, M. Kasari, Y. Teng, C. Cheng, & L. He. 2013. Keyword Extraction from Short Documents Using Three Levels of Word Evaluation. Communications in Computer and Information Science 415: 130-146. [DOI:10.1007/978-3-642-54105-6_9]
  52. Timonen, M., T. Toivanen, M. Kasari, Y. Teng, C. Cheng, & L. He. 2013. Keyword Extraction from Short Documents Using Three Levels of Word Evaluation. Communications in Computer and Information Science 415: 130-146. [DOI:10.1007/978-3-642-54105-6_9]
  53. Tripathi, M. 2018. How to process textual data using TF-IDF in Python. Free Code Camp. https://www.freecodecamp.org/news/how-to-process-textual-data-using-tf-idf-in-python-cd2bbc0a94a3/ (accessed July 18, 2020)
  54. Tripathi, M. 2018. How to process textual data using TF-IDF in Python. Free Code Camp. https://www.freecodecamp.org/news/how-to-process-textual-data-using-tf-idf-in-python-cd2bbc0a94a3/ (accessed July 18, 2020)
  55. Zhang, C., H. Wang, Y. Liu, D. Wu, Y. Liao, & B. Wang. 2008. Automatic Keyword Extraction from Documents Using Conditional Random Fields. Journal of Computational Information Systems 4 (3): 1169-1180.
  56. Zhang, C., H. Wang, Y. Liu, D. Wu, Y. Liao, & B. Wang. 2008. Automatic Keyword Extraction from Documents Using Conditional Random Fields. Journal of Computational Information Systems 4 (3): 1169-1180.