شناسایی موضوعات داغ و روندها در علم اطلاعات و دانش‌شناسی با استفاده از تکنیک‌های متن-کاوی

نویسندگان

1 دانشگاه اصفهان، اصفهان، ایران

2 دانشکده علوم تربیتی و روان‌شناسی، دانشگاه اصفهان، اصفهان، ایران

3 گروه هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران

چکیده

شناسایی موضوعات داغ در حوزه­‌های پژوهشی همواره موردتوجه بوده است؛ تصمیم­‌گیری هوشمندانه در مورد آنچه باید مورد مطالعه و قرار بگیرد، همواره عاملی اساسی برای محققان بوده و می­‌تواند برای پژوهشگران موضوعی چالش‌­برانگیز باشد. هدف پژوهش حاضر، شناسایی موضوعات داغ در مقالات نمایه­‌شده در پایگاه اسکوپوس در حوزه علم اطلاعات و دانش‌­شناسی در سال­های 2010 تا 2019 با استفاده از تکنیک­‌های متن­‌کاوی است. جامعه آماری، شامل 50995 مقاله منتشرشده در 249 عنوان مجله نمایه­شده در پایگاه اسکوپوس در این حوزه در بازه زمانی 2010 تا 2019 است. برای شناسایی خوشه­‌های موضوعی این حوزه، از الگوریتم­‌های تکنیک تخصیص دیریکلت پنهان (LDA) استفاده شد و داده‌­ها با استفاده از کتابخانه‌های متن‌کاوی در نرم­افزار پایتون مورد تحلیل قرار گرفت. برای این کار، با اجرای الگوریتم وزن­دهی لغات به روش TF-IDF و تشکیل ماتریس متنی، موضوعات در پیکره اسناد تعیین و ضرایب اختصاص هر سند به هر موضوع (تتا) مشخص شد. خروجی اجرای الگوریتم LDA، منجر به شناسایی تعداد 260 موضوع شد. تخصیص برچسب به هریک از خوشه‌های موضوعی، بر اساس کلمات با بالاترین وزن اختصاص‌یافته به هر موضوع و با نظر کارشناسان حوزه موضوعی، انجام گرفت. با انجام محاسبات با ضریب اطمینان 95%، تعداد 63 موضوع از بین 260 موضوع اصلی انتخاب شد. با محاسبه میانگین تتا برحسب سال، تعداد 24 موضوع دارای روند مثبت (موضوع داغ) و تعداد 39 موضوع دارای روند منفی (موضوع سرد) تعیین شد. بر اساس نتایج، موضوعات مطالعات سنجشی، مدیریت الکترونیکی/ بازاریابی الکترونیکی، بازیابی محتوا، تحلیل داده و مهارت الکترونیکی، ازجمله موضوعات داغ بود و موضوعات آموزش، آرشیو، مدیریت دانش، سازمان‌دهی و سلامت کتابداران ازجمله موضوعات سرد در حوزه علم اطلاعات و دانش­‌شناسی در بازه زمانی 2010 تا 2019 شناسایی شد. تحلیل یافته­‌ها نشانگر آن است که به دلیل رویکرد اغلب پژوهشگران در 10 سال گذشته به استفاده از فنّاوری‌های نوظهور، موضوعات مبتنی بر فنّاوری بیشتر باعث جذب آنان شده و در مقابل، موضوعات پایه‌­ای­ این حوزه، کمتر موردتوجه قرارگرفته‌اند.

کلیدواژه‌ها


عنوان مقاله [English]

Identification of Hot Topics and Trends in Knowledge and Information Science, Based on Text Mining Techniques

نویسندگان [English]

  • Elahe Akhavanhariri 1
  • Ali Mansouri 2
  • Hossein Karshenas Najafabadi 3
1
2
3
چکیده [English]

Identification of hot topics in research areas has always been of interest. Making smart decisions about what is needed to be studied is always a fundamental factor for researchers and can be challenging for them. The goal of this study is to identify hot topics and thematic trend analysis of articles indexed in Scopus database in the field of Knowledge and Information Science (KIS), between 2010 and 2019, by Text Mining techniques.
The population consists of 50995 articles published in 249 journals indexed in Scopus database in the field of KIS from 2010 to 2019. To identify thematic clusters, algorithms of Latent Dirichlet Allocation (LDA) technique were used and the data were analyzed using libraries in Python software. To do this, by implementing the word weighting algorithm, using the TF-IDF method, and weighting all of the words and forming a text matrix, the topics in the documents and the coefficients for assigning each document to each topic (Theta) were determined. The output of the LDA algorithm led to the identification of the optimal number of 260 topics. Each topic was labeled based on the words with the highest weight assigned to each topic and with considering of experts’ opinions. Then, Topic clustering, keywords and topics identification were done. By performing calculations with 95% confidence, 63 topics were selected from 260 main topics. By calculating the average theta in years, 24 topics with a positive trend or slope (hot topic) and 39 topics with a negative trend or negative slope (cold topic) were determined. According to the results, measurement studies, e-management/ e-marketing, content retrieval, data analysis and e-skills, are considered as hot topics and training, archive, knowledge management, organization and librarians' health, were identified as cold topics in the field of KIS, in the period 2010 to 2019. The analysis of the findings shows that due to the interest of the most researchers in the last 10 years in using of emerging technologies, technology-based topics have attracted them more. In contrast, basic issues are less considered to be developed.

کلیدواژه‌ها [English]

  • Hot Topics
  • Latent Dirichlet Allocation (LDA)
  • text mining
  • Knowledge and Information Science
‌آذری، سلمان، محمود شکراللهی‌فر، و‌ محمدعلی لسانی فشارکی. 1399. الگوپردازی مفهوم‌یابی از آیات قرآن کریم با استفاده از دانش متن‌کاوی رایانشی. مجله ذهن 82 (2): 81-108.
اصلانی، اکرم و مهدی اسماعیلی. 1397. یافتن الگوهای مکرّر در قرآن کریم به ‌‌کمک روش‌‌های متن‌‌کاوی. پردازش علائم و داده‌ها (۳) 15: ۸۹-۱۰۰.
برنا، کیوان، فرهاد فتحی، و عصمت مؤمنی. 1397. کشف دانش و کاربرد آن در اینترنت اشیا. فصلنامه مطالعات دانش‌شناسی 5 (17): 125-164.
پرئی، اعظم‌السادات، و حجت‌الله حمیدی. 1396. ارائه رویکردی برای مدیریت و سازمان‌دهی اسناد متنی با استفاده از تجزیه‌ و تحلیل هوشمند متن. پژوهشنامه پردازش و مدیریت اطلاعات (۴) 32: ۱۱۷۱-۱۲۰۲.
جعفری پاورسی، حمیده، نجلا حریری، مهدی علیپور حافظی، فهیمه باب‌الحوائجی، و مریم خادمی، مریم. 1398. نمایه‌سازی ماشینی مدارک حوزه بازیابی اطلاعات با استفاده از متن‌کاوی در نرم‌افزار رپیدماینر. فصلنامه پردازش و مدیریت اطلاعات ۳۵ (۲): ۳۴۹-۳۷۴.
دستانی، میثم، افشین موسوی چلک، افشین، ثریا ضیایی، و فایزه دل‌قندی. 1399. تجزیه ‌و تحلیل موضوعی مقالات منتشرشده کتابداری و اطلاع‌رسانی پزشکی در ایران با استفاده از فنون متن‌کاوی. فصلنامه مرکز تحقیقات مدیریت خدمات بهداشتی درمانی دانشگاه علوم پزشکی و خدمات درمانی تبریز 11 (4): 355-375.
رضایی‌نور جلال، و محمدرضا شیخ‌بهائی. 1396. کاربردهای داده‌کاوی متنی در حوزه مدیریت دانش زنجیرة خدمات دولت الکترونیکی. فصلنامه مدیریت فناوری اطلاعات 9 (1): 39-60.
سلیمانی‌نژاد، ‌عادل، مژده سلاجقه، و الهام طیبی. 1397. خوشه‌بندی مقالات علمی بر پایۀ الگوریتم‌ k_means مطالعۀ موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)،.پردازش و مدیریت اطلاعات 34 (2): 871-986.
شکوهیان،‌؟، عاصفه عاصمی، احمد شعبانی، مظفر چشمه‌سهرابی. 2019. تحلیل ترکیبی کتاب‌سنجی و متن‌کاوی تولیدات علمی حوزه پرونده الکترونیک سلامت در پایگاه PubMed. مدیریت اطلاعات سلامت 16 (4): 190-196.‎
صالحی شهرودی، محمدحسین، بهروز مینایی، و امیررضا اشرفی. 1392. متن‌کاوی موضوعی رایانه‌ای قرآن کریم برای کشف ارتباطات معنایی میان آیات بر مبنای تفسیر المیزان. قرآن شناخت 12 (2): 117-152.
کاردان، احمدآقا، و مینا کیهانی‌نژاد. 1391. ارائه مدلی برای استخراج اطلاعات از مستندات متنی مبتنی بر متن‌کاوی در حوزه یادگیری الکترونیکی. فناوری اطلاعات و ارتباطات ایران 4 (11-12): 47-54.
 
Al-Azmi, Abdul-Aziz Rashid. 2013. Data, text and web mining for business intelligence: a survey. International Journal of Data Mining & Knowledge Management Process (IJDKP) 3 (2): 1-21. https://doi.org/10.5121%2Fijdkp.2013.3201 .
Åström, F. 2002. Visualizing library and information science concept spaces through keyword and citation based maps and clusters. In Emerging frameworks and methods: Proceedings of the fourth international conference on conceptions of Library and Information Science (CoLIS4) (pp. 185-197). Greenwood Village: Libraries Unlimited.
Ayyoubzadeh, S. M., S. M. Ayyoubzadeh, H. Zahedi, M. Ahmadi, & S. R. N. Kalhori. 2020. Predicting COVID-19 incidence through analysis of google trends data in Iran: data mining and deep learning pilot study. JMIR public health and surveillance 6 (2): e18828.
Bittermann, André, and Andreas Fischer. 2018. How to identify hot topics in psychology using topic modeling. Zeitschrift für Psychologie 226: 3-13.
Blei, D. M., A. Y. Ng, and M. I. Jordan. 2003. Latent dirichlet allocation. Journal of Machine Learning Research 3: 993–1022. https://doi.org/10.1016/b978-0-12-411519-4.00006-9.
Bornmann. L., and R. Mutz. 2015. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references. The Journal of the Association for Information Science and Technology (JASIST) 66 (11): 2215-2222.
Burrill, G., & D. Ben-Zvi. 2019. Topics and Trends in Current Statistics Education Research. Springer International Publishing. https://doi.org/10.1007/978-3-030-03472-6.
Buscema, P. M., F. Della Torre, M. Breda, G. Massini, and E. Grossi. 2020. COVID-19 in Italy and extreme data mining. Physica A: Statistical Mechanics and its Applications 557: 124991.
Carracedo, P., R. Puertas, and L. Marti. 2021. Research lines on the impact of the COVID-19 pandemic on business. A text mining analysis. Journal of Business Research 132: 586-593.
Chen, S., X. Guo, T. Wu, and X. Ju. 2020. Exploring the online doctor-patient interaction on patient satisfaction based on text mining and empirical analysis. Information Processing & Management 57 (5): 102253.
Dastani, M., S. Ziaei, and F. Delghandi. 2020. Identifying Emerging Trends in Scientific Texts Using TF-IDF Algorithm: A Case Study of Medical Librarianship and Information Articles. Health Technology Assessment in Action 4 (2): ), 1-8. https://doi.org/10.18502/htaa.v4i2.6231
Erdfelder, Edgar, and Michael Bosnjak. 2016. Hotspots in Psychology: A New Format for Special Issues of the Zeitschrift für Psychologie Zeitschrift für Psychologie 224 (3): 141-144, DOI: 10.1027/2151-2604/a000249.
Gal, D., B. Thijs, W. Glänzel, and K. R. Sipido. 2019. Hot topics and trends in cardiovascular research. European heart journal 40 (28): 2363-2374.
Hamerly, Greg, & Charles Elkan. 2002. Alternatives to the k-means algorithm that find better clusterings. Paper presented at the Proceedings of the eleventh international conference on Information and knowledge management. pp 25-38 Virginia USA: McLean.
Han, X. 2020. Evolution of research topics in LIS between 1996 and 2019: An analysis based on latent Dirichlet allocation topic model. Scientometrics 125 (3: ( 2561-2595.
Hjørland, B. 2000. Library and information science: practice, theory, and philosophical basis. Information processing & management 36 (3): 501-531.
Jabeen, M., L. Yun, M. Rafiq, M. Jabeen & M. A. Tahir. 2015. Scientometric analysis of library and information science journals 2003–2012 using Web of Science. International Information & Library Review 47 (3-4): 71-82.
Jo, Taeho. 2018. Text mining: Concepts, implementation, and big data challenge (Vol. 45)?: Springer, pp 230-286.
Jung, H., & B. G. Lee. 2020. Research trends in text mining: Semantic network and main path analysis of selected journals. Expert Systems with Applications 162: 113851.
Kajberg, Leif. 1996. A content analysis of library and information science serial literature published in Denmark, 1957-198Library and Information Science Research 18 (1): 25-52.
Katsurai, M., and S. Joo. 2021. Adoption of Data Mining Methods in the Discipline of Library and Information Science. Journal of Library and Information Studies 19 (1): 1-17.
Kim, S. Y., S. J. Song, and M. Song. 2019. Investigation of Topic Trends in Computer and Information Science by Text Mining Techniques: From the Perspective of Conferences in DBLP. Journal of the Korean Society for information Management 32 (1): 135-152.
Kowalski, G. J., & M. T. Maybury. 2000. Information storage and retrieval systems: theory and implementation (Vol. 8). ?: Springer Science & Business Media.
Larsen. P. O., and M. V Ins. 2010. The rate of growth in scientific publication and the decline in coverage provided by Science Citation Index, Scientometrics 84 (3): 575–603. DOI: 10.1007/s11192-010-0202-z.
Lee, J. Y., H. Kim, and P. J. Kim. 2010. Domain analysis with text mining: Analysis of digital library research trends using profiling methods. Journal of Information Science 36 (2): 144-161.
Li, X., M. Fan, Y. Zhou, J. Fu, F. Yuan, and L. Huang. 2020. Monitoring and forecasting the development trends of nanogenerator technology using citation analysis and text mining. Nano Energy 71: 104636.
Luhn, Hans Peter. 1957. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of research and development 1 (4): 309-317.
Manoharan, S. 2020. Geospatial and social media analytics for emotion analysis of theme park visitors using text mining and Journal of Information Technology 2 (02): 100-107.
Natarajan, M. 2005. Role of text mining in information extraction and information management. DESIDOC Journal of Library & Information Technology 25 (4): 31-38.
Park, J. H., and M. Song. 2013. A study on the research trends in library & information science in Korea using topic modeling. Journal of the Korean Society for information, koreascience.or.kr, Journal of the Korean Society for information Management  30 (1): 7-32.
Popowich, F. 2005. Using text mining and natural language processing for health care claims processing. ACM SIGKDD Explorations Newsletter 7 (1): 59-66.
Rehurek, R., and P. Sojka. 2010. Software framework for topic modelling with large corpora. In Proceedings of the LREC 2010 workshop on new challenges for NLP frameworks (pp. 45–50). Valletta, Malta.
Salton, G., & C. Buckley. 1988. Term-weighting approaches in automatic text retrieval. Information processing & management 24 (5): 513-523.
Silge, J., & D. Robinson. 2017. Text mining with R: A tidy approach. Newton, Massachusetts, United States, O'Reilly Media, Inc.
Stevens, K., P. Kegelmeyer, D. Andrzejewski, and D. Buttler. 2012. Exploring topic coherence over many models and many topics. In EMNLP-CoNLL 2012–2012 joint conference on empirical methods in natural language processing and computational natural language learning (pp. 952–961). Valletta, Malta.
Tworowski, D., A. Gorohovski, S. Mukherjee, G. Carmi, E. Levy, R. Detroja, and M. Frenkel-Morgenstern. 2021. COVID19 Drug Repository: text-mining the literature in search of putative COVID19 therapeutics. Nucleic acids research 49 (1): D1113-D1121.
Van Dijk, W. B., A. T. Fiolet, E. Schuit, A. Sammani, T. K. J. Groenhof, R. van der Graaf, ... and A. Mosterd. 2021. Text-mining in electronic healthcare records can be used as efficient tool for screening and data collection in cardiovascular trials: a multicenter validation study. Journal of Clinical Epidemiology 132: 97-105.
Vinay, R. S., and M. T. Basavaraja. 2019. Trends in Library and Information Science Research: A Scientometric Analysis, 9th KSCLA National Conference on Library in the Life of the User, 1-2 March 2019 At: Tumakuru. India.
Wang, Dashun and Albert-László Barabási. 2020. The Science of Science. United Kingdom Cambridge University Press. Doi: 10.1017/9781108610834.
Wang, L., and K. Lo. 2021. Text mining approaches for dealing with the rapidly expanding literature on COVID-19. Briefings in Bioinformatics 22 (2): 781-799.
Zengul, F. D., A. G. Zengul, M. Mugavero, N. Oner, B. Ozaydin, B. Delen and J. Cimino. 2021. A critical analysis of COVID-19 research literature: Text mining approach. Intelligence-based medicine, 100036. https://doi.org/10.1016/j.ibmed.2021.100036.