Iranian Journal of Information Processing and Management

Iranian Journal of Information Processing and Management

Using Conceptual Clustering to Extraction of Key Phrases and Related Terms: A Case Study of Scientific Communication Texts

Document Type : Original Article

Authors
1 Doctoral student of information science and knowledge, Isfahan University, Iran
2 Knowledge and Information Science, University of Isfahan, Isfahan
3 Associate Professor, Information Systems, Institute of Data Analytics and Information Systems, Corvinus University of Budapest
4 Assistant Professor, Department of knowldege and Information Sciences,, University of Isfahan, Isfahan, Iran
Abstract
Scientific communication encompasses various types and forms of communication conducted through the use of communication methods and tools, aiming to exchange scientific knowledge and information. To gain a comprehensive understanding of scientific and research communications and enhance them, it is crucial to identify the terms and concepts. Therefore, the main objective of this research is to identify and conceptually cluster key terms in the field of scientific communication using text mining techniques. The present research method is quantitative in terms of approach and practical in terms of purpose and utilized various text mining techniques for identifying and clustering key terms in the field of scientific communication. The research population consists of abstracts of articles related to scientific communication, extracted from databases such as Web of Science and Scopus, totaling 558 articles. The sampling method was census. Initially, all nominal phrases were extracted using available libraries. Each compound phrase was decomposed into its constituent words, and based on GloVe dictionary, the average vectors of those words were  calculated, assigning a numerical vector to each compound phrase. The researchers created an equivalent expression using existing vocabulary to describe unknown terms that did not exist in the GloVe dictionary. The clustering (using the K-means method) was performed on these vectors. The findings revealed that out of 17,930 extracted keywords, 13,651 terms were noun phrases. Also, 16% of terms in the field of scientific communication were single words and 84% of them were compound. After creating vectors of compound terms and performing clustering, 40 conceptual clusters were created from 792 phrases or terms in the field of scientific communication. After adjusting and removing weak clusters, researchers finally identified 22 clusters in the field of scientific communication. Identifying the concepts and components in scientific communication in the form of conceptual clusters and its elements is attributed to the results of this research. One of the most significant findings was the assignment of numerical vectors to composite phrases based on the vectors of their constituent words. These vectors were then used for clustering and categorizing phrases, as well as improving and correcting some clusters. This method pays attention to the semantics aspects and learning in the clustering and categorization of concepts and, will aid to precise analysis of key terms and phrases in various fields.
Keywords
Subjects

ابویی اردکان، محمد، حسن عابدی جعفری، و فتاح آقازاده. 1389. کاربرد روش‏های خوشه‏بندی در ترسیم نقشه‏های علم: موردکاوی نقشه علم مدیریت شهری. پژوهشنامه پردازش و مدیریت اطلاعات 25 (3): 347-371.
احمدی، الهام، فریده عصاره، و غلامرضا حیدری. 1396. شناسایی و تحلیل عوامل ترغیب‏کننده و بازدارنده همکاری علمی اعضای هیئت علمی در سطوح محلی، ملی و بین‏المللی در دو دانشگاه شهید چمران و علوم پزشکی جندی شاپور اهواز. مدیریت اطلاعات سلامت 12 (2): 183-193.
باقری بنجار، عبدالرضا، نرگس مصلحی جنابیان، بانو بیگی ملک‏آبادی، و میثم محمدی. 1394. بررسی رابطه ارتباطات علمی و خوداثربخشی دانشگاهی دانشجویان. توسعه اجتماعی (توسعه انسانی سابق) 10 (2): 79-100.
برهمند، نیلوفر. 1386. مجلات الکترونیکی و ارتباطات علمی. فصلنامه کتاب 72: 201-212.
پاکدامن، نشانه. 1384. ارتباطات علمی در دانشگاه‎ها با تأکید بر مشکلات دسترسی به مجلات علمی. تحقیقات کتابداری و اطلاع‏رسانی دانشگاهی 39 (43): 41-56.
پرهام‏نیا، فرشاد. 1400. واکاوی مفهوم ارتباطات علمی در مکتب شیکاگو با تأکید بر کنش متقابل نمادین. بازیابی دانش و نظام‏های معنایی 7 (26): 143-163.
پلویى، آرزو، و نادر نقشینه. 1395. ارتباطات علمى از منظر آراى نیکلاس لومان. مطالعات ملى کتابدارى و سازماندهى اطلاعات 27 (2): 7-20.
حسن‏زاده، آرزو، گلنسا گلینی‏مقدم، و زهرا اجاق. 1402. بررسی سطح آگاهی دانشجویان رشته علم اطلاعات و دانش‏شناسی دانشگاه علامه طباطبائی درباره ارتباطات علمی. مطالعات دانش‏پژوهی 2 (1): 33-53.
خسروجردی، محمود. 1385. ترسیم شبکه ارتباطات علمی میان دانشمندان با استفاده از رویکرد شبکه استنادی. کتابداری 40: 97-112.
داورپناه، محمدرضا. 1395. ارتباط علمى: نیاز اطلاعاتى و رفتار اطلاع‏یایى. تهران: دبیزش؛ چاپار.
د سیلوا، پالی یو.کی.، و کندیس کی. ونس. 2017. ارتباطات علمی: تغییر چشم‏انداز. ترجمه صالح رحیمی. 1398. کرمانشاه: دانشگاه رازی.
دستیار، وحید، نادر رازقی، و مهدی فقیه عبدالهی. 1399. نقش رسانه‎های اجتماعی در ارتباطات علمی اعضای هیئت علمی دانشگاه مازندران و تأثیر آن بر تولیدات علمی آنان. کتابداری و اطلاع‏رسانی 23 (4): 173-196.
دهقانپور، زهرا، لاله صمدی، و عبدالرضا نوروزی چاکلی. 1402. تحلیل رویکردهای کارکردی و ساختاری ارتباطات علمی در تولید دانش توسط پژوهشگران حوزه علم‏سنجی در ایران. پژوهشنامه علم‏سنجی 9 (1): 259-286.
رضادوست، کریم، عبدالرضا نواح و الهام ادیب‏زاده. 1396. بررسی عوامل هنجاری و سازمانی مؤثر بر میزان تولید علمی اعضای هیئت علمی: مورد مطالعه اعضای هیئت علمی دانشگاه شهید چمران اهواز. مطالعات کتابداری و علم اطلاعات 9 (20): 23-42.
رضی، مصطفی، جواد هاشم‏زاده، فریده عصاره، و مرتضی محمدی استانی. 1395. تبیین الگوی رفتار استنادی و تعیین میزان همکاری علمی پژوهشگران در مجله‏های علمی-پژوهشی زمین‏شناسی ایران. مطالعات کتابداری و علم اطلاعات 8 (17): 61-82.
ریاحی، عارف، و افشین موسوی چلک. 1399. بررسی عوامل مؤثر و موانع پیش ‏روی همکاری‏های علمی بین‏المللی از دیدگاه اعضای هیئت علمی حوزه پرستاری. مجله بالینی پرستاری و مامایی 9 (3): 753-768.
روزبهانی، معصومه، و نصرت ریاحی‏نیا. 1395. شناسایی شاخص‏های اعتبار در ارتباطات علمی (مطالعه و استناد) از دیدگاه اعضای هیئت علمی دانشگاه خوارزمی. تعامل انسان و اطلاعات 3 (2): 1-11.
زرمهر، فاطمه، علی منصوری، و حسین کارشناس نجف‏آبادی. 1402. مقایسه عملکرد رویکردهای کشف و استخراج موضوعات کتاب‏های الکترونیک. پژوهشنامه پردازش و مدیریت اطلاعات 38 (4): 1369-1394.
زره‏ساز، محمد. 1390. ارتباطات علمی به‏منزله یک نظام اطلاعاتی: جنبش دسترسی آزاد وتغییرات پارادایمی. شمسه 3 (12-13): 1-17.
سلیمانی‏نژاد، عادل، مژده سلاجقه، و الهام طیبی. 1397. خوشه‏بندی مقالات علمی بر پایه الگوریتم k_means مطالعه موردی: پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک). پژوهشنامه پردازش و مدیریت اطلاعات 34 (2): 871-896.
سهرابی، طیبه، و سعید غفاری. 1398. شناسایی موضوعات پرکاربرد تولیدات علمی در حوزه «ارتباطات علمی» با استفاده از روش تحلیل هم‏رخدادی واژگان. پژوهشنامه علم‏سنجی 5 (2): 45-62.
سهیلی، فرامرز، فرشید دانش، و رحمت‏الله فتاحی. 1389. کاربردهای وب‏سنجی در سنجش ارتباطات علمی. مطالعات ملی کتابداری و سازماندهی اطلاعات 23 (1): 148-163.
شکوهیان، محبوبه، عاصفه عاصمی، احمد شعبانی، و مظفر چشمه‏سهرابی. 1398. ارائه مدل دسته‏بندی موضوعی تولیدات علمی حوزه سلامت با استفاده از روش‏های متن‏کاوی. پژوهشنامه پردازش و مدیریت اطلاعات 35 (2): 553-574.
شمسی، مهناز، و مریم سلیمانی. 1394. بررسی رابطه ارتباطات علمی و رسانه‏ها با تأکید بر رسانه‏های اجتماعی. کتاب مهر (17 - 1۸): 62 - 79.
علیدوستی، سیروس، محمود خسروجردی، و بهزاد دوران. 1388. مدیریت ارتباطات علمی. تهران: پژوهشگاه اطلاعات و مدارک علمی ایران؛ چاپار.
غیاثی، فرناز، نوید نظافتی، و سجاد شکوهیار. 1394. خوشه‏بندی کاربران داده‏های دریایی با استفاده از تکنیک داده‏کاوی. پژوهشنامه پردازش و مدیریت اطلاعات 30 (4): 1025-1049.
کفاشان کاخکی، مجتبی، و محسن خلیلی. 1398. نقش ارتباط علمی در فرایند تولید دانش در علوم انسانی. پژوهشنامه کتابداری و اطلاع‏رسانی 9 (1): 107-123.
گلینی‏مقدم، گلنسا، میترا صمیعی، و مریم کمالی سروستانی. 1397. نقش رسانه‎های اجتماعی در ارتباطات علمی اعضای هیئت علمی دانشگاه علامه طباطبائی. مطالعات رسانههای نوین 4 (15): 322-351.
مرادویسی، ژاله، سیروس پناهی، و شهرام صدقی. 1400. نقش شبکه‎های اجتماعی در ارتباطات علمی دانشجویان و اعضای هیئت علمی دانشگاه علوم پزشکی ایران. مدیریت سلامت 24 (4): 47-57.
منصوری، رضا. 1395. ارتباطات علم و ترویج علم. ترویج علم 7 (1): 5-6.
مهرآور گیگلو، شهرام، علی خورسندی طاسکوه، سعید غیاثی ندوشن، و عباس عباسی. 1399. شناسایی عوامل بازدارنده همکاری‎های علمی بین‎المللی در نظام آموزش عالی کشور و ارائه راهکار: مطالعه‏ای کیفی. پژوهش در آموزش علوم پزشکی 12 (3): 68-78.
مهرابی، گلپر، عباس عباس‎پور، علی دلاور، و علی خورسندی طاسکوه. 1401. شناسایی عوامل مؤثر بر ارتقای کیفیت پژوهش دانشگاهی در حوزه علوم انسانی و اجتماعی. پژوهش در نظامهای آموزشی 16 (56): 5-21.
یلوه، الهام، و یعقوب نوروزی. 1400. مروری نظام‏مند بر پژوهش‏های بهبود الگوریتم کا-میانه برای خوشه‏بندی داده‏ها. پژوهشنامه پردازش و مدیریت اطلاعات 37 (2): 527-556.
References:
Abbasi-Moud, Z., H. Vahdat-Nejad, and J. Sadri. 2021. Tourism recommendation system based on semantic clustering and sentiment analysis. Expert Systems with Applications 167, Article 114324. https://doi.org/10.1016/j.eswa.2020.114324
Aburass, S., O. Dorgham, and J. Al-Shaqsi. 2023. A hybrid machine learning model for classifying gene mutations in cancer using LSTM, BiLSTM, CNN, GRU, and GloVe. https://arxiv.org/abs/2307.14361 (accessed Jan. 3, 2024)
Al-Daihani, S. M., J. S. Al-Qallaf, & S. A. Al-Saheeb. 2018. Use of social media by social science academics for scholarly communication. Library Review 67 (6-7): 412-424.
Buitrago Ciro, J. 2022. How are academic libraries in Spanish-speaking Latin America responding to new models of scholarly communication and predatory publishing? Journal of Librarianship and Information Science 54 (3): 373-388. https://doi.org/10.1177/09610006211016533
Fähnrich, B. 2021. Conceptualizing science communication in flux: A framework for analyzing science communication in a digital media environment. JCOM 20 (03): Y02. https://doi.org/10.22323/2.20030402
Gherab Martín, K. J. 2021. The dual function of open access scholarly communication: An arXiv case study. Techno Review. International Technology, Science and Society Review 10 (2): 199–211. https://doi.org/10.37467/gkarevtechno.v10.3196
Gozetti, P. 2006. Institutional repositories in scholarly communication: A literature review on models. issues and current trends. MSc. in International Information Studies, University of Parma. https://core.ac.uk/download/pdf/41181177.pdf (accessed Jan. 21, 2024)
Gullbekk, E. 2016. Apt information literacy? A case of interdisciplinary scholarly communication. Journal of Documentation 72 (4): 716-736. https://doi.org/10.1108/JDOC-08-2015-0101
Kapellas, N. and S. Kapidakis. 2023. Event detection in news articles: A hybrid approach combining topic modeling, clustering, and named entity recognition. In Proceedings of the 15th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2023) – V. 2: KEOD, 272-279, Science and Technology Publications. doi:10.5220/0012234300003598
Kappel, K. and S. J. Holmen. 2019. Why science communication, and does it work? A taxonomy of science communication aims and a survey of the empirical evidence. Frontiers in Communication 4 (55). doi: 10.3389/fcomm.2019.00055
Khoiriah, Kh., A. Suyatna, A. Abdurrahman, and T. Jalmo, T. 2023. Reviewing of Indonesian students’ scientific communication skills: A structural equation modeling analysis. International Journal of Evaluation and Research in Education (IJERE) 12 (1): 292-301.
Khosrowjerdi, M. 2011. Designing a viable scientific communication model: VSM approach. Library Hi Tech 29 (2): 359-372.
Kuhn, A., S. Ducasse and T. Gîrba. 2007. Semantic clustering: Identifying topics in source code. Information and Software Technology 49 (3): 230-243. https://doi.org/10.1016/j.infsof.2006.10.017
Kuzminska, O. 2021. Selecting tools to enhance scholarly communication through the life cycle of scientific research. Educational Technology Quarterly 2021 (3): 402–414.
Ma, W., X. Tu, B. Luo, and G. Wang. 2022. Semantic clustering-based deduction learning for image recognition and classification. Pattern Recognition 124, Article 108440. https://doi.org/10.1016/j.patcog.2021.108440 
Martin-Yeboah, E., A. A. Alemna, & E. Adjei. 2018. Scholarly Communication via Institutional Repositories: A Ghanaian Perspective. Library Philosophy and Practice. 2024. https://digitalcommons.unl.edu/libphilprac/2024/ (accessed Jan. 18, 2024)
Nosek, B. A., & Y. Bar-Anan. 2012. Scientific utopia: I. Opening scientific communication. Psychological Inquiry 23 (3): 217-243.
Salloum, S.A., M. Al-Emran, A. A. Monem, and K. Shaalan. 2018. Using text mining techniques for extracting information from research articles. In Intelligent Natural Language Processing: Trends and Applications. Studies in Computational Intelligence, K. Shaalan, A. Hassanien, F. Tolba. (eds), 373-397, Springer, Cham. https://doi.org/10.1007/978-3-319-67056-0_18
Santhiappan, S., N. Shravan, and B. Ravindran. 2023. CIAMS: Clustering indices-based automatic classification model selection. International Journal of Data Science and Analytics, 1-23. https://doi.org/10.1007/s41060-023-00441-5
Santos, G., M. T. Valente, and N. Anquetil. 2014. Remodularization analysis using semantic clustering, In 2014 Software Evolution Week - IEEE Conference on Software Maintenance, Reengineering, and Reverse Engineering (CSMR-WCRE), Antwerp, Belgium, 224-233, IEEE. doi: 10.1109/CSMR-WCRE.2014.6747174
Shehata, A. M.K. and M. A. M. Eldakar. 2023. Scholarly communication practices and attitudes of Egyptian junior researchers: An exploratory study. The Journal of Academic Librarianship 49 (6). https://doi.org/10.1016/j.acalib.2023.102811 (accessed 6 Jan 2024).
Xia, J. 2006. Scholarly communication in east and Southeast Asia: Traditions and challenges. IFLA Journal 32 (2): 104-112.
Xiao, J. 2024. Integrating digital literacies and scientific communication in a multimedia anatomy group assignment to advance contextual learning. Anatomical Sciences Education 17 (1): 55–65. https://doi.org/10.1002/ase.2331
Xiaoyan, L., R. C. Raga, R. C., and S. Xuemei. 2022. GloVe-CNN-BiLSTM model for sentiment analysis on Text Reviews. Journal of Sensors, Article ID 7212366. https://doi.org/10.1155/2022/7212366 (accessed 2 Jan 2024).
Volume 39, Issue 4 - Serial Number 119
Summer 2024
Pages 1443-1475

  • Receive Date 09 February 2024
  • Revise Date 02 June 2024
  • Accept Date 09 June 2024