تأثیر کمبود و پراکندگی داده بر اثربخشی نتایج سامانه ژورنال‌یاب رایسست: مطالعه موردی حوزه فنی و مهندسی

نویسندگان

1 مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، شیراز، ایران.

2 گروه علم اطلاعات و دانش‌شناسی دانشگاه شیراز، شیراز، ایران

3 گروه مهندسی و علوم کامپیوتر و فناوری اطلاعات، دانشگاه شیراز، ایران

4 مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، شیراز، ایران

چکیده

عوامل متعددی از مجموعه‌ عناصر تشکیل‌دهنده سامانه‌های پیشنهاددهنده در تولید و ارائه پیشنهاد دخیل هستند. مطالعه حاضر، با هدف شناخت تأثیر دو چالش کمبود و پراکندگی داده بر اثربخشی نتایج پیشنهادی سامانه ژورنال‌یاب «رایسست» انجام شده است. بدین منظور، بیش از 15000 مقاله از نشریه‌های فنی و مهندسی در بازه زمانی 1392 تا 1396 از وب‌سایت نشریه‌ها گردآوری شد. در مرحله بعد عناصر متنی این مقاله‌ها شامل عنوان، چکیده و واژه‌های کلیدی استخراج، نرمال‏سازی و پردازش شد و پایگاه داده‌پیکره پژوهش ایجاد گردید. بر اساس تعداد مقاله‌های گردآوری‌شده، با استفاده از فرمول «کوکران» تعداد 400 مقاله پایه، که پیش از این در نشریه‌های مرتبط با موضوع منتشر شده بودند، به ‌روش تصادفی-تناسبی انتخاب شد. عنوان و چکیده این مقاله‌ها، به‌منظور دریافت نشریه‌های پیشنهادی سامانه، جهت چاپ مقاله در دو مرحله پیش و پس از بهبود دو چالش کمبود و پراکندگی داده به‌عنوان پرسمان وارد سامانه شد. سپس، نتایج پیشنهادی در هر مرحله در قالب فایل «اکسل» ذخیره گردید. سرانجام، ‌میزان اثربخشی نتایج سامانه در هر مرحله به‌ روش اعتبارسنجی یک‌طرفه و بر اساس معیار دقت در k تعیین شد. فراوانی نسبی رده‌ها نشان داد که در وضعیت موجود، نشریه هدف تنها در 26 درصد از پرسمان‌ها در 3 رتبه نخست پیشنهاد شده است. در راستای بهبود چالش کمبود داده با غنی‌سازی، نرمال‌سازی و پردازش داده‌ها اثربخشی نتایج در 3 رتبه نخست به ‌میزان 15 درصد افزایش یافت. اما همچنان در بیش از 30 درصد پرسمان‌ها، نشریه هدف در رتبه 10 و بالاتر پیشنهاد شده بود. بنابراین، در مرحله بعد، به‌منظور بهبود چالش پراکندگی، دسته‌بندی موضوعی داده‌ها انجام و افزایش 30 درصدی اثربخشی نتایج نسبت به مرحله پیشین در 3 رتبه نخست حاصل گردید. بر این اساس، یکی از عواملی که منجر به کاهش اثربخشی نتایج پیشنهادی سامانه ژورنال‌یاب «رایسست» می‌شود، کمبود و پراکندگی داده‌هاست که با غنی‌سازی پایگاه داده، بهبود فرایند پردازش، و دسته‌بندی موضوعی داده‌ها می‌توان با این دو چالش به ‌میزان قابل توجهی مقابله کرد و اثربخشی نتایج پیشنهادی سامانه را بهبود بخشید.

کلیدواژه‌ها


عنوان مقاله [English]

The Impact of Data Lack and Data Sparsity on the Effectiveness of the Results of the RICeST Journal Finder Results: A Case Study in the Field of Engineering

نویسندگان [English]

  • Narjes Vara 1
  • Mahdieh Mirzabeigi 2
  • SHajar Sotudeh 2
  • Seyed Mostafa Fakhrahmad 3
  • Niloofar Mozafari 4
چکیده [English]

Several factors are involved in the production and presentation of recommender systems.The aim of this study was to investigate the effect of the two challenges lack and sparsity of data on the effectiveness of the proposed results of the RICeST Journal Finder. The corpus includes more than 15,000 articles from technical and engineering publications in the period 2013 to 2017, which have been collected from their website. Textual elements of these articles were extracted, normalized and processed, and a research body database was created. Based on the number of collected articles, by using Cochran's formula, 400 basic articles that previously published in related to the topic of each journal were selected in a random-proportional method. Title and abstract of these articles as a query, in order to receive the system journals suggested, to print the article in two stages of before and after improving the two challenges of lack and sparsity of data in the test corpus. The suggested results in each step were saved in Excel. Finally, the effectiveness of the system results in each stage was determined by Leave-one-out Cross-Validation method and based on the accuracy criterion in k. The relative abundance of categories showed that, in the current situation, the target journal was suggested in only 26% of searches in the first 3 ranks. After enriching, normalizing and processing the data and thus improving the lack of data challenge, although 30% of the results were still rated above 10; but the accuracy of the results in the first 3 ranks increased by 15%. Also, after thematically categorizing the data with the aim of improving the sparsity challenge, 30% increase in the accuracy of the system results in the first 3 ranks compared to the previous step was achieved. The results of this study showed that enriching the database, improving the processing process and thematic classification of data in RICeST journal finder can reduce the two challengs lack and sparsity of data and increase the effectiveness of the proposed results of this systems.

کلیدواژه‌ها [English]

  • Efficiency
  • Journal Finder
  • Lack of Data
  • Data Sparsity
  • RICeST Journal Finder
آخشیک، سمیه‌سادات، و رحمت‌الله فتاحی. 1391. تحلیل چالش‌های پیوسته‎نویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌های اطلاعاتی. کتابداری و اطلاع‌رسانی 3 (59): 9-30.
پرئی، اعظم‌السادات، و حجت‌اله حمیدی. 1396. ارائه رویکردی برای مدیریت و سازمان‌دهی اسناد متنی با استفاده از تجزیه ‌و تحلیل هوشمند متن. پژوهشنامه پردازش و مدیریت اطلاعات ۳۲ (۴): ۱۱۷۱-۱۲۰۲.
حری، عباس. 1372. کامپیوتر و رسم‌الخط فارسی. فصلنامه تحقیقات اطلاع‌رسانی و کتابخانه‌های عمومی (پیام کتابخانه سابق) 3 (1): 6-11.
حسین‌زاده، پریسا. 1400. اثربخشی مجله‌های پیشنهادی سامانة توصیه‌گر مجلات الزویر. پایان‌نامه کارشناسی ارشد علم اطلاعات و دانش‌شناسی. دانشگاه شیراز.
دیانی، محمدحسین. 1392. روش‌های تحقیق در کتابداری. مشهد: کتابخانه رایانه‌ای.
رنجبر، ایوب، و جواد عباس‌پور. 1397. گسترش‌پذیری جست‌وجو و بازیابی مدارک در پایگاه‌های اطلاعات علمی فارسی: مورد پژوهشی پیوسته‌نویسی و جدانویسی. کتابداری و اطلاع‌رسانی 21 (3): 57-90.
ستوده، هاجر، و زهره هنرجویان. 1391. مروری بر دشواری‌های زبان فارسی در محیط دیجیتال و تأثیرات آن‌ها بر اثر‌بخشی پردازش خودکار متن و بازیابی اطلاعات. کتابداری و اطلاع‌رسانی 15 (4): 59-92.
ضیائی بیده، علیرضا، و سید یعقوب حسینی. 1395. آمار ناپارامتریک و روش پژوهش با کاربرد نرم‌افزار SPSS. تهران: دانشگاه علامه طباطبایی.
کامیابی گل، عطیه، الهام اخلاقی باقوجری، احسان عسگریان، و هانیه حبیبی. 1397. استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمی‎‎پژوهشی دانشگاه فردوسی مشهد. کتابداری و اطلاع‌رسانی 21 (2): 3-25.
نشاط، نرگس. 1379. مسائل رسم‌الخط فارسی در رویارویی با فناوری نوین اطلاعاتی در فهرست‌های رایانه‌ای؛ کاربرد و توسعه. مجموعه مقالات همایش کاربرد و توسعه فهرست‌های رایانه‌ای کتابخانه‌های ایران. آبان 27-28، (401-408). مشهد: دانشگاه فردوسی مشهد.
هماوندی، هدی، یعقوب نوروزی، و ملوک‌السادات حسینی بهشتی. 1397. بررسی مشکلات جست‌وجو و بازیابی اطلاعات در پایگاه‌های اطلاعاتی از جنبه ویژگی‌های نگارشی زبان فارسی. پژوهشنامه پردازش و مدیریت اطلاعات ۳۳ (۳): ۱۰۸۷-۱۱۱۰.
 
Aggarwal, C. C. 2016. An introduction to recommender systems. In: Recommender systems:The Textbook. Springer, Cham. https://doi.org/10.1007/978-3-319-29659-3_1
Anderson, K. 2012. Editorial Rejection — Increasingly Important, Yet Often Overlooked Or Dismissed, in The Scholarly Kitchen. https://scholarlykitchen.sspnet.org/2012/04/19/post-publication-peer-review-what-value-do-usage-based-metrics-offer/ (accessed Dec. 22, 2020)
Bahadoran, Z., P. Mirmiran, K. Kashfi, and A. Ghasemi. 2021. Scientific Publishing in Biomedicine: How to Choose a Journal? International Journal of Endocrinology and Metabolism 19 (1): e108417.
Balyan, R., K. S. McCarthy, and D. S. McNamara. 2020. Applying natural language processing and hierarchical machine learning approaches to text difficulty classification. International Journal of Artificial Intelligence in Education 30 (3): 337-370.
Beel, J., B. Gipp, S. Langer, & C. Breitinger. 2016. Research-paper recommender systems: a literature survey. International Journal on Digital Libraries 17 (4): 305–338.
Berbatova, M. 2019. Overview on NLP Techniques for Content-Based Recommender Systems for Books. In Proceedings of the Student Research Workshop Associated with RANLP 2019 (pp. 55-61). Varna, Bulgaria. INCOMA Lt.d
Camacho, L. A. G., and S. N. Alves-Souza. 2018. Social network data to alleviate cold-start in recommender system: A systematic review. Information Processing & Management 54 (4): 529-544.
Cochran, W. G. 1977. Sampling techniques (3rd ed.). NewYork: Wiley.
Das, D., L. Sahoo, and S. Datta. 2017. A survey on recommendation system. International Journal of Computer Applications 160 (7): 6-10.
Dror G, N. Koenigstein, Y. Koren, & M. Weimer. 2012. The Yahoo! music dataset and kdd-cup’11. Journal of Machine Learning Research Workshop and Conference Proceedings: Proceedings of KDD Cup 18: 3-18.
Eirinaki, M., J. Gao, I. Varlamis, and K. Tserpes, K. 2018. Recommender systems for large-scale social networks: A review of challenges and solutions. Future Generation Computer Systems 78 (Part 1): 413-318.
Fayyaz, Z., M. Ebrahimian, D. Nawara, A. Ibrahim, and R. Kashef. 2020. Recommendation Systems: Algorithms, Challenges, Metrics, and Business Opportunities. Applied Sciences 10 (21): 7748. https://doi.org/10.3390/app10217748.
Feng, X., H. Zhang, Y. Ren, P. Shang, Y. Zhu, Y. Liang, and D. Xu. 2019. The Deep Learning–Based Recommender System “Pubmender” for Choosing a Biomedical Publication Venue: Development and Validation Study. Journal of medical Internet research 21 (5): e12957.
Forrester, A., B. C. Björk, and C. Tenopir. 2017. New web services that help authors choose journals. Learned Publishing 30 (4): 281–287.
Göksedef, M., and S. Gündüz-Öğüdücü. 2010. Combination of Web page recommender systems. Expert Systems with Applications 37 (4): 2911-2922.
Guo, X., X. Li, and Y. Yu. 2021. Publication delay adjusted impact factor: The effect of publication delay of articles on journal impact factor. Journal of Informetrics 15 (1): 101100.
Gupta, V., & G. S. Lehal. 2009. A survey of text mining techniques and applications. Journal of emerging technologies in web intelligence 1 (1): 60-76.
Heinrich, B., M. Hopf, D. Lohninger, A. Schiller, and M. Szubartowicz. 2021. Data quality in recommender systems: the impact of completeness of item content data on prediction accuracy of recommender systems. Electronic Markets 31 (2): 389-409
Hong, S., Y. Zhou, J. Shang, C. Xiao, & J. Sun. 2020. Opportunities and challenges of deep learning methods for electrocardiogram data: A systematic review. Computers in Biology and Medicine 122: 103801.
Huisman, J., and J. Smits. 2017. Duration and quality of the peer review process: the author’s perspective. Scientometrics 113 (1): 633-650.
Isinkaye, F. O., Y. O. Folajimi, and B. A. Ojokoh. 2015. Recommendation systems: Principles, methods and evaluation. Egyptian Informatics Journal 16 (3): 261-273.
Jenuwine, E. S., & J. A. Floyd. 2004. Comparison of Medical Subject Headings and text-word searches in MEDLINE to retrieve studies on sleep in healthy individuals. Journal of the Medical Library Association 92 (3): 349.
Kanakia, A., Z. Shen, D. Eide, & K. Wang. 2019. A scalable hybrid research paper recommender system for Microsoft academic. In The World Wide Web conference (pp. 2893-2899). NewYork, NY, USA.
Kang, N., M. Doornenbal, & B. Schijvenaars. 2015. Elsevier Journal Finder: Recommending Journals for your Paper. RecSys '15, September 16 - 20, Vienna, Austria.
Kant, Mahara. 2018. Merging user and item based collaborative filtering to alleviate data sparsity. International Journal of System Assurance Engineering 9 (1): 173-179.
Khusro, S., Z. Ali, & I. Ullah. 2016. Recommender systems: issues, challenges, and research opportunities. In Information Science and Applications (ICISA) 2016 (pp. 1179-1189). Singapore: Springer.
Lampert, C. H. 2009. Learning to detect unseen object classes by between-class attribute transfer. In IEEE Conference on Computer Vision and Pattern Recognitio. CVPR. Miami, FL, USA.
Liu, X., Y. Ouyang, W. Rong, & Z. Xiong. 2015. Item category aware conditional restricted boltzmann machine based recommendation. In International Conference on Neural Information Processing (pp. 609-616). Cham: Springer.
Lin, Z., S. Hou, and J. Wu. 2016. The correlation between editorial delay and the ratio of highly cited papers in Nature, Science and Physical Review Letters. Scientometrics 107 (3): 1457-1464.
Lucas, J. P., S. Segrera, & M. N. Moreno. 2012. Making use of associative classifiers in order to alleviate typical drawbacks in recommender systems. Expert Systems with Applications 39 (1): 1273-1283.
Mohamed, M. H., M. H. Khafagy, & M. H. Ibrahim. 2019. Recommender systems challenges and solutions survey. In 2019 International Conference on Innovative Trends in Computer Engineering (ITCE) (pp. 149-155). Aswan, Egypt. doi: 10.1109/ ITCE.2019.8646645.
Mulligan, A., L. Hall, & E. Raphael. 2013. Peer review in a changing world: An international study measuring the attitudes of researchers. Journal of the American Society for Information Science and Technology 64 (1): 132-161.
Nguyen, T. T., F. Maxwell Harper, L. Terveen, et al. 2018. User Personality and User Satisfaction with Recommender Systems. Information Systems Frontiers 20 (6): 1173-1189.
Nilashi, M., O. Ibrahim, & K. Bagherifard. 2018. A recommender system based on collaborative filtering using ontology and dimensionality reduction techniques. Expert Systems with Applications 92 (February): 507-520.
Park, D. H., H. K. Kim, J. K. Kim, I. Y. Choi, & J. K. Kim. 2011. A review and classification of recommender systems research. International Proceedings of Economics Development & Research 5 (1): 290-294.
QasemiZadeh, B., S. Rahimi, & M. S. Ghalati. 2014. Challenges in Persian Electronic Text Analysis. arXiv preprint arXiv:1404.4740. https://arxiv.org/ftp/arxiv/papers/1404/1404.4740.pdf (accessed Nov. 10, 2020)
Ricci, F., L. Rokach, & B. Shapira. 2015. Recommender systems: introduction and challenges. In Recommender systems handbook (pp. 1-34). Boston, MA: Springer.
Robinson. 1964. Groups in which normality is a transitive relation. In Mathematical Proceedings of the Cambridge Philosophical Society 60 (1): 21-38. Cambridge University Press.
Rollins, J., M. McCusker, J. Carlson, & J. Stroll. 2017. Manuscript Matcher: A Content and Bibliometrics-based Scholarly Journal Recommendation System. Proceedings of the Fifth Workshop on Bibliometric-enhanced Information Retrieval (BIR) co-located with the 39th European Conference on Information Retrieval (ECIR 2017), Aberdeen, UK, April 9th, 2017. (pp. 18-29).
Sachan, A., & V. Richhariya. 2013. Reduction of data sparsity in collaborative filtering based on fuzzy inference rules. International Journal of Advanced Computer Research 3 (2): 101.
Sarwar B., G. Karypis, J. Konstan, & J. Riedl.2000. Application of dimensionality reduction in recommender system – a case study. In: ACM WebKDD Workshop, 2000b, pp. 264–272. University of Minnesota, Minneapolis.
Sarwar B., G. Karypis, J. Konstan, and J. Riedl. 2001. Item-Based Collaborative Filtering Recommendation Algorithms In Proceedings of the 10th international conference on World Wide. Hong Kong.
Schedl, M., H. Zamani, C. W. Chen, Y. Deldjoo, and M. Elahi. 2018. Current challenges and visions in music recommender systems research. International Journal of Multimedia Information Retrieval 7 (2): 95-116.
Seraji, M. 2013. PrePer: A Pre-processor for Persian, Proceedings of the Fifth International Conference on Iranian Linguistics (ICIL5), Bamberg, Germany.
Sharma, R., & R. Singh. 2016. Evolution of recommender systems from ancient times to modern era: a survey. Indian Journal of Science and Technology 9 (20): 1-12.
Su, J. H., & T. W. Chiu. 2016. An item-based music recommender system using music content similarity. In Asian Conference on Intelligent Information and Database Systems (pp. 179-190). Springer, Berlin, Heidelberg.
Thorat, P. B., R. M. Goudar, & S. Barve. 2015. Survey on collaborative filtering, content-based filtering and hybrid recommendation system. International Journal of Computer Applications 110 (4): 31-36.
Wang, W. T., and Y. P. Hou. 2015. Motivations of employees’ knowledge sharing behaviors: A self-determination perspective. Information and Organization 25 (1): 1-26.
Wang, Z., H. Huang, L. Cui, J. Chen, J. An, H. Duan, & N. Deng. 2020. Using Natural Language Processing Techniques to Provide Personalized Educational Materials for Chronic Disease Patients in China: Development and Assessment of a Knowledge-Based Health Recommender System. JMIR medical informatics 8 (4): e17642.
Wang, H., Z. Wang, & W. Zhang. 2018. Quantitative analysis of Matthew effect and sparsity problem of recommender systems. In 2018 IEEE 3rd International Conference on Cloud Computing and Big Data Analysis (ICCCBDA) (pp. 78-82). Chengdu, China.
Wei, S., N. Ye, S. Zhang, X. Huang, & J. Zhu. 2012, August. Item-based collaborative filtering recommendation algorithm combining item category with interestingness measure. In 2012 International Conference on Computer Science and Service System (pp. 2038-2041). Nanjing, China.
Wu, F., Yang, R., Zhang, C., & Zhang, L. 2021. A deep learning framework combined with word embedding to identify DNA replication origins. Scientific reports 11 (1): 1-19.
Yao, W., J. He, H. Wang, Y. Zhang, & J. Cao. 2015. Collaborative topic ranking: Leveraging item meta-data for sparsity reduction. In Proceedings of the AAAI Conference on Artificial Intelligence 29 (1): 374-380.
Yin, H., Q. Wang, K. Zheng, Z. Li, & X. Zhou. 2020. Overcoming Data Sparsity in Group Recommendation. IEEE Transactions on Knowledge and Data Engineering. doi: 10.1109/TKDE.2020.3023787.
Zhao, X. 2019. A study on e-commerce recommender system based on big data. In 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis (ICCCBDA) (pp. 222-226). Chengdu, China.
Zhang, Y., H. Abbas, & Y. Sun. 2019. Smart e-commerce integration with recommender systems. Electronic Markets 29 (2): 219-220
Zoetekouw, K. F. A. 2019. A critical analysis of the negative consequences caused by recommender systems used on social media platforms. Bachelor's thesis. University of Twente.