کاربرد یادگیری ماشینی مبتنی‌بر شبکه عصبی برای دسته‌بندی مستندات علمی

نویسندگان

1 پژوهشکده زبان‌شناسی؛پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران؛ ایران.

2 دانشکده مهندسی کامپیوتر؛دانشگاه صنعتی امیرکبیر، تهران؛ ایران.

چکیده

از دهه 1380 شمسی، نگارش و انتشار مقالات علمی در ایران سرعت بسیار زیادی یافته‎ و سبب شده افزون ‌‌بر سازمان‎های دولتی مانند «ایرانداک» و «سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران»، سامانه‌های برخط متعدد دیگری چون «پرتال جامع علوم انسانی»، «نورمگز»، «مگ‌ایران»، «علم‌نت»، «سیویلیکا» و غیره اقدام به مدیریت دانش و تهیه بایگانی‌های ساختارمند مستندات علمی کنند. هر کدام از این بایگانی‌ها امکاناتی را در اختیار کاربر قرار می‌دهد. یکی ‌از این امکانات، قابلیت جست‌وجوست و جست‌وجوی دقیق می‌تواند بر کاربریِ این سامانه‌ها تأثیر به‌سزایی بگذارد. برای افزایش دقت جست‌وجو نیاز است حوزه علمی مقالات مشخص شود. دسته‌بندی حجم زیاد منابع علمی در حوزه‌های مختلف بسیار زمان‌بر است و استفاده از روش‌های ماشینی به‌عنوان یک راه‌حل می‎تواند از این کار طاقت‌فرسا بکاهد.
هدف اصلی این مقاله ارائه یک مدل دسته‌بندی برای تعیین حوزه مقالات علمی است. اگرچه در پژوهش‌های پیشینِ دسته‌بندی، به‌طور عمده، الگوریتم‌های دسته‌بندیِ متداول برای متن ساده به‌کار رفته‌اند، در این پژوهش تلاش می‌شود افزون ‌بر استفاده از این دسته‌بندی‌ها، از دسته‌بندهای مبتنی‌ بر شبکه عصبی، مانند شبکه عصبی «پیچشی» و «پرسپترون»، به ‌همراه بازنمایی معنایی مبتنی ‌بر بافت، مانند «پارس‌برت» استفاده شود و نتایج آن با سایر روش‌های متداول در ساخت بردار مستندات، مانند «ورد2وک» مقایسه شود. برای این هدف، از داده‌های «پرتال علوم انسانی» که دربرگیرنده مقالات متنوع علوم انسانی است، استفاده می‌کنیم. ویژگی این داده مشخص ‌بودن حوزه تخصصی هر مقاله است. یکی ‌از ویژگی‌های شبکه عصبی این است که برایندی از ویژگی‌های نهفته از داده در فضای برداریِ ساخته‌شده شکل می‌گیرد و برای آموزش مدل استفاده می‌شود. بر اساس نتایج عملی، دسته‌بند «پرسپترون» مبتنی ‌بر «پارس‌برت» بالاترین کاراییِ 71/74 درصدی بر اساس امتیاز F میکرو و کارایی 55/72 درصدی بر اساس امتیاز F ماکرو را به‌‌دست آورده ‌است

کلیدواژه‌ها


عنوان مقاله [English]

Application of the Neural Network-based Machine Learning Method to Classify Scientific Articles

نویسندگان [English]

  • Masood Ghayoomi 1
  • Maryam Mousavian 2
چکیده [English]

Since 2000s (1380s according to the Iran’s solar calendar), the increasing rate of writing and publishing scientific articles in Iran has become very intense. In addition to the governmental organizations, such as Irandoc & the National Library and Archives of the Islamic Republic of Iran, this caused numerous other online systems, such as the General Portal of Humanities, Noormags, Magiran, Elmnet, Civilica, etc, to manage knowledge and to provide structured archives of the scientific documents. Each of these archives provides facilities to the user. One of these facilities is searching on the documents. An accurate search can greatly improve the usage of these online systems. To increase the accuracy of the search result, it is necessary to determine the scientific field of articles. Classifying large volumes of scientific resources in different fields is very time-consuming. Using machinery methods can be a solution to reduce the severity of the task.
The main contribution of this paper is to provide a classification model to classify Persian scientific articles. Although in previous studies, the classification task has been mainly used for simple texts, in this study, the neural network-based classification models, such as convolutional and perceptron neural networks, are used with the contextualized semantic representation, such as ParsBERT; and the results are compared with the other common method utilized for vectorization, namely Word2Vec. To this end, we use the data from the General Portal of Humanities, which includes various articles in the Humanities and each article contains the label of the field. One of the neural network characteristics is that a set of hidden features from the data in the vector space is created and used to train the model. According to the experimental results, the Perceptron classifier that utilized ParsBERT representation obtained the highest performance which is 74.71% based on the Micro F-score, and 72.55% based on the Macro F-score.

کلیدواژه‌ها [English]

  • Scientific publications
  • Humanities
  • Classification
  • Neural network
  • Vector Space
  • BERT
امامی آزادی، طاهره، و فرشاد الماس‌گنج. 1385. «دسته‌بندی موضوعی متون فارسی بر اساس روش آنالیز معنایی پنهان احتمالاتی بهبود یافته،» در مجموعه‌مقالات دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران. تهران.
باقری، ایوب، حامد فرزانه‌فر، محمدحسین سرایی، و محمدرضا احمدزاده. 1387. «دسته‌بندی متون خبری فارسی با استفاده از الگوریتم Naïve Bayes،» دومین کنفرانس داده کاوی ایران. دانشگاه صنعتی امیرکبیر، تهران.
تیمورپور، بابک، محمدمهدی سپهری، و لیلا پزشک. 1388. روشی نوین برای دسته‏بندی هوشمند متون علمی (مطالعه موردی مقالات فناوری نانو متخصصان ایران). سیاست علم و فناوری، 2 (2): 1-15.
رباطی، زهرا .1393. دسته‌بندی اخبار فارسی با استفاده از تکنیک‌های هوش مصنوعی. پایان‌نامه کارشناسی ارشد. دانشگاه صنعتی شاهرود. دانشکده کامپیوتر و فناوری ارتباطات، شاهرود. ایران.
ربیعی، محمد، سید مهدی حسینی مطلق، و بهروز مینایی بیدگلی. 1398. ارائه روش رده‌بندی تک‌رده‌ای برای شناسایی متون پژوهشی حوزه محیط زیست ایران با استفاده از ماشین بردار پشتیبان. پژوهشنامه پردازش و مدیریت اطلاعات ۳۴ (۳): ۱۲۱۱-۱۲۳۴.
جمالی، ایمان، سید جواد میرعابدینی، و علی هارون‌آبادی. 1399. ارائة یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش‌های دسته‌بندی،» فصلنامه تخصصی مهندسی مخابرات 10 (38): 61-72.
شکوهیان، محبوبه، عاصفه عاصمی، احمد شعبانی، و مظفر چشمه‌سهرابی. 1398. ارائة مدل دسته‌بندی موضوعی تولیدات علمی حوزه سلامت با استفاده از روش‌های متن‌کاوی. پژوهشنامه پردازش و مدیریت اطلاعات ۳۵ (۲): ۵۵۳-۵۷۴.
علایی ابوذر، الهام، نصرالله پاک‌نیت، علی‌اصغر حجت‌پناه، و مجتبی زالی و محمدهادی آقالویی‌آغمیونی (در حال چاپ). «معرفی یک پیکره متنی تخصصی: پیکره پژوهشنامه،» مجله پژوهش‌های زبان‌شناسی تطبیقی. https://rjhll.basu.ac.ir/article_4226.html
کامیابی‌گل، عطیه، الهام اخلاقی باقوجری، احسان عسگری، و هانیه حبیبی. 1397. استخراج اطلاعات از پیکره زبانی: معرفی پیکره مقاله‌های علمی-پژوهشی دانشگاه فردوسی مشهد. کتابداری و اطلاعرسانی 21 (2): 3-25.
منفرد، زینت. 1393. توسعه راهکارهایی هوشمند جهت پردازش خبرهای فارسی. پایان‌نامه کارشناسی ارشد. دانشگاه شیراز. دانشکده مهندسی برق و الکترونیک. شیراز، ایران.
نوریان، زهرا، و یداله زاده‌طبری ‌میثم. 1394. «دسته‌بندی اسناد فارسی با استفاده از شبکه‌های عصبی،» در مجموعه‌مقالات کنفرانس بین‌المللی دستاوردهای نوین در علوم مهندسی و پایه. مرکز پژوهشی زمین‌کاو با همکاری انجمن علوم مهندسی لندن، اودسا، اوکراین.
هاشمی، سیامک، و مریم حورعلی. 1396. «دسته‌بندی اخبار فارسی حوزه دفاعی با استفاده از هستان‌شناسی،» در مجموعه‌مقالات دومین کنفرانس بین‌المللی پژوهش‌های دانش‌بنیان در مهندسی کامپیوتر و فناوری اطلاعات، تهران، ایران.
یعقوبی، ملیکا. 1391. سیستم مکانیزه طبقه‌بندی اخبار در بستر وب. پایان‌نامه کارشناسی ارشد. دانشگاه صنعتی شاهرود. دانشکده کامپیوتر و فناوری ارتباطات. شاهرود، ایران.
 
Aharony, N. 2011. Librarians’ attitudes toward knowledge management. College & Research Libraries 72 (2): 111-126.
Ahmadi, P., M. Tabandeh, & I. Gholampour. 2016. “Persian text classification based on topic models,” In Proceedings of the 24th Iranian Conference on Electrical Engineering, pp: 86-p1, IEEE Computer Society. Shiraz, Iran.
AleAhmad, A., H Amiri, E. Darrudi, M. Rahgozar, & F. Oroumchian. 2009. “Hamshahri: A standard Persian text correction. Knowledge-based Systems 22 (5): 382-387.
Bijankhan, M., J. Sheikhzadegan, & M.R. Roohani. 1994. “FARSDAT-The speech database of Farsi spoken language,” In Proceedings of the Australasian Conference in Speech Science & Technology, Vol.2, pp: 826-830. Perth, Australia.
Bird, S., R. Dale, B. Dorr, B. Gibson, M. Joseph, M.Y. Kan, D. Lee, B. Powley, D. Radev & Y. Fan Tan. 2008. "The ACL Anthology Reference Corpus: A reference dataset for bibliographic research in Computational Linguistics," In Proceedings of the 6th International Conference on Language Resources & Evaluation, Marrakech, Morocco, pp: 1755-1759.
Blei, D. M.; A. Y. Ng, M. I. Jordan, & J. Lafferty. 2003. Latent Dirichlet allocation. Journal of Machine Learning Research 3: 993–1022.
Boisot, M. & A. Canals. 2004. Data, information, & knowledge: Have we got it right. Journal of Evolutionary Economics 14: 43–67.
Cortes, C., & V. Vapnik. 1995. Support-vector networks. Machine Learning 20 (3): 273-297.
Charbuty, B., & A. Abdulazeez. 2021. Classification based on decision tree algorithm for machine learning. Journal of Applied Science & Technology Trends. 2 (1): 20-28.
Chowdhury, S., & M. P. Schoen. 2020. “Research paper classification using supervised machine learning techniques,” In Proceedings of the Intermountain Engineering, Technology & Computing, pp. 1-6.
Dadgar, S. M. H., M. S. Araghi, & M. M. Farahani. 2016. “A novel text mining approach based on TF-IDF & support vector machine for news classification,” In Proceedings of 2016 IEEE International Conference on Engineering & Technology, pp. 112–116. Wuhan, China.
Degaetano-Ortlieb, S., H. Kermes, E. Lapshinova-Koltunski, & E. Teich. 2013. “SciTex - A diachronic corpus for analyzing the development of scientific registers,” In P. Bennett, M. Durrell, S. Scheible, & R. J. Whitt (eds.), New Methods in Historical Corpus Linguistics 3: 93–104.
Devlin, J., M. W. Chang, K. Lee, & K. Toutanova. 2019. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp: 4171–4186, Minneapolis: Association for Computational Linguistics.
Farahani, M., M. Gharachorloo, M. Farahani, & M. Manthouri. 2020. “ParsBERT: Transformer-based model for Persian language understanding,” arXiv preprint arXiv: 2005.12515.
Girard, J. P., & J. L. Girard. 2015. Defining knowledge management: Toward an applied compendium. Online Journal of Applied Knowledge Management 3 (1): 14.
Harris, Z. S. 1954. Distributional Structure. Word 23: 146–162.
Hofmann, T. 1999. “Probabilistic latent semantic indexing,” In Proceedings of the Twenty-Second Annual International SIGIR Conference on Research & Development in Information Retrieval, pp: 211-218. California, Berkeley, USA.
Imai, T., K. Nakamura, & T. Ohmameuda. 2015. “Visualization of similar news articles with network analysis & text mining,” In Proceedings of 2015 IEEE 4th Global Conference on Consumer Electronics, Osaka, Japan, pp: 151-152.
Jacobi, C., W. van Atteveldt, & K. Welbers. 2016. Quantitative analysis of large amounts of journalistic texts using topic modelin. Digital Journalism 4 (1): 89–106.
Jahantigh, M., N. Daneshpour, & M. E. N. Orojlou. 2016. “Presenting an improved combination for classification of Persian texts,” In Proceedings of 2016 Eighth International Conference on Information & Knowledge Technology (IKT), pp. 234–240. Bu-Ali Sina University, Hamedan, Iran.
Kalchbrenner, N., E. Grefenstette, & P. Blunsom. 2014. “A convolutional neural network for modelling sentences,” In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp. 655--665, June, Baltimore, Maryland: Association for Computational Linguistics.
Karami, A., Aryya Gangopadhyay, B. Z., & H. Kharrazi. 2018. Fuzzy approach topic discovery in health & medical corpora. International Journal of Fuzzy Systems 20: 1334-1345. 
Kim, S. W., & J. M. Gil. 2019. Research paper classification systems based on TF-IDF & LDA schemes. Human-centric Computing & Information Sciences 9: 30.
Kwary, D. A. 2018. A corpus & a concordancer of academic journal articles. Data in Brief 16: 94-100.
Landauer, C. 1998. “Data, information, knowledge, understanding: Computing up the meaning hierarchy,” In Proceedings of the 1998 IEEE International Conference on Systems, Man, & Cybernetics, San Diego, California, pp. 2255-2260.
Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado, & J. Dean. 2013. “Distributed representations of words & phrases & their compositionality,” In Advances in Neural Information Processing Systems 26, eds. Burges, C. J. C., Bottou, L., Welling, M., Ghahramani, Z., & Weinberger, K. Q., Curran Associates, Inc., pp. 3111–3119.
Momtazi, S. & M. Ghayoomi. 2014. “Weekly supervised text categorization using topic modeling,” In Proceedings of the 3rd Conference on Computational Linguistics. Tehran, Iran.
Nonaka, I. 1991. Harvard Business Review 69 (6): 96–104.
Pennington, J., R. Socher, & C.D. Manning. 2014. “Glove: Global Vectors for word representation,” In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, vol. 14, pp. 1532–1543. Doha, Qatar.
Peters, M. E., M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee & L. Zettlemoyer. 2018. “Deep contextualized word representations,” In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp: 2227–2237.
Radford, A., K. Narasimhan, T. Salimans, & I. Sutskever. 2018. Improving language understanding by generative pre-training.
Rivest, M., E. Vignola-Gagné, & É. Archambault. 2021. “Article-level classification of scientific publications: A comparison of deep learning, direct citation & bibliographic coupling”. PLoS ONE 16 (5): e0251493.
Rong, X. 2014. word2vec parameter learning explained. arXiv preprint arXiv: 1411. 2738.
Rowley, J. 2007. The wisdom hierarchy: Representations of the DIKW hierarchy. Journal of Information Science 33 (2): 163–180.
Salton, G. 1971. The SMART Retrieval System---Experiments in Automatic Document Processing. Upper Saddle River, NJ: Prentice-Hall, Inc.
Shah, K., H. Patel, D. Sanghvi, & M. Shah. 2020. A comparative analysis of logistic regression, random forest & KNN models for the text classification. Augmented Human Research 5 (1): 1-16.
Sharma, N. 2008. The origin of the data information knowledge wisdom hierarchy. https://www.researchgate.net/publication/292335202_The_Origin_of_Data_Information_Knowledge_Wisdom_DIKW_Hierarchy. (accessed May 6, 2022)
Song, L., Z. Wang, H. Mi, & D. Gildea. 2016. “Sense embedding learning for word sense induction,” In Proceedings of the 5th Joint Conference on Lexical & Computational Semantics, The *SEM 2016 Organizing Committee, pp. 85–90. Berlin, Germany.
Xu, S. 2018. Bayesian Naïve Bayes classifiers to text classification. Journal of Information Science 44 (1): 48-59.
Wittgenstein, L. 1953. Philosophical Investigations. Oxford: Blackwell Publishing Ltd.