کاربست قوانین انجمنی و خوشه‌بندی در کنترل کیفیت داده‌های پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)

نویسندگان

1 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران

2 دانشگاه صنعتی امیرکبیر،تهران ، ایران

چکیده

پایگاه‌های اطلاعات علمی و موتورهای جست‌وجو از ابزارهای اصلی کار پژوهشگران است. برای بازیابی دقیق و صحیح اطلاعات از این پایگاه‌ها نیاز است که اطلاعات با کیفیت مناسب و با کمترین خطا ذخیره شود. کنترل دستی اطلاعات زمان‌بر و پُرهزینه است. در این مقاله، روش‌های داده‌کاوی برای کنترل کیفیت پایگاه اطلاعات پژوهشی معرفی می‌شود. برای این منظور، ابتدا باید اطلاعاتی از خطاهای مرسوم را در کنار سایر اطلاعات هر رکورد جمع‌آوری کرد. سپس، با استفاده از روش‌های داده‌کاوی الگوهای پنهان و روابط بین خطاها را کشف کرد و بر این اساس، راه‌های بهبود کیفیت داده را ارائه داد. در این مقاله پایگاه اطلاعات علمی ایران (گنج)، به‌عنوان مطالعة موردی در نظر گرفته شد. 59 کد خطا توسط خبرگان تعریف شد. سپس، اطلاعات فرادادة هر رکورد مثل نام دانشگاه، نام رشته،گرایش و حوزة تخصصی مدرک به ‌همراه کدهای خطای آن در یک مجموعه داده ‌ذخیره شد. این مجموعه داده شامل 41021‌ رکورد ‌در حوزه‌های مختلف است. با استفاده از روش‌های آماری و قوانین انجمنی رابطه بین خطاها و الگوی تکرار آن‌ها درهر حوزه بررسی شد. نتایج نشان داد که ‌به‌طور میانگین با در نظر گرفتن 25 درصد از خطاها در هر حوزه، می‌توان تا 80 درصد از خطاهای همة رکوردهای یک حوزه را کاهش داد. این خطاها شامل خطاهای پرتکرار در هر حوزه و همچنین خطاهایی است که با آن‌ها رابطة قوی دارند. با استفاده از روش خو‌شه‌بندی k-means رکوردها خوشه‌بندی شدند. نتایج نشان داد که اگرچه شباهت‌هایی بین رکوردها از حوزه‌های مختلف وجود دارد، اما رابطة معناداری بین حوزة رکوردها و الگوی تکرار خطاها وجود ندارد.

کلیدواژه‌ها


عنوان مقاله [English]

Data mining methods for quality control of research data; Case study of Iranian Scientific Database (GANJ)

نویسندگان [English]

  • Azadeh Fakhrzdaeh 1
  • Mohammad javad Ershadi 1
  • Mohammad Mahdi Ershadi 2
چکیده [English]

Research information databases and search engines are one of the main resources used by researchers every day. To accurately retrieve information from these databases, data need to be stored correctly. Manual controlling of data quality is costly and time-consuming. Here we suggest data mining methods for controlling the quality of a research database. To this end, common errors that are seen in a database should be collected. Metadata of every record in addition to its error codes is saved in a dataset. Statistics and data mining methods are applied to this dataset and patterns of errors and their relationships are discovered. Here we considered Iran's scientific information database (Ganj) as a case study. Experts defined 59 errors. Intimate features of every record, such as its subject, authors' names and name of the university, with its error codes were saved in a dataset. The dataset containing 41021 records was formed.  Statistics methods and association rules were applied to the dataset and the relationship between errors and their pattern of repetition were discovered. Based on our results, in average by considering 25% of errors in every subject, up to 80%  of errors of all the records in a subject are covered. All the records were also clustered using K-means clustering. Although there was some similarity between records of different subjects, there was not seen any evident relationship between the pattern of repetition of the errors and the subject of records.

کلیدواژه‌ها [English]

  • Data quality
  • Research Information Quality
  • Quality Control
  • Clustering
Agrawal, R. and R. Sriknat. 1994. Fast Algorithms for Mining Association Rules in Large Databases, Proceedings of the 20th International Conference on Very Large Data Bases. September, pp. (487–499) Chile.
Altendeitering, M. 2021. Mining Data Quality Rules for Data Migrations: A Case Study on Material Master Data. Margaria, Steffen (eds) Leveraging Applications of Formal Methods, Verification and Validation. ISoLA 2021. Lecture Notes in Computer Science, vol 13036. Cham: Springer. https://doi.org/10.1007/978-3-030-89159-6_12
Azeroual, O., G., M. Saake, Abuosba and J. Schöpfel. 2020. Data Quality as a Critical Success Factor for User Acceptance of Research Information Systems. Data 5 (2): 35.
Brin, S., R. Motwani, J. D. Ullman, and S. Tsur. 1997. Dynamic itemset counting and implication rules for market basket data. ACMSIGMOD Conference, Tucson, Arizona, USA, pp. 255–264.
Chien, C. F., W. C. Wang and J. Cheng. 2007. Data mining for yield enhancement in semiconductor manufacturing and an empirical study. Expert Systems with Applications 33 (1): 192–198.
Cheung, D. W., J. Han, V. T. Ng, and C. Y. Wong. 1996. Maintenance of discovered association rules in large databases: an incremental updating approach. IEEE International Conference on Data Engineering, pp. (106–114). Washington, DC.
Cheeseman, P., and J. Stutz. 1996. Bayesian classification (AutoClass): theory and results. U.M. Fayyad, G. Piatetsky-Shaprio, P. Smyth, & R. Uthurusamy (Eds.), Advances in knowledge discovery and data mining . pp (153–180). Menlo Park: American association for Artificial Intelligence.
Chu, X., I. F. Ilyas, and P. Papotti. 2013a. Discovering denial constraints. Proceedings of the VLDB Endowment, 6 (13): 1498–1509.
_____. 2013b. Holistic data cleaning: Putting violations into context. IEEE International Conference on Data Engineering, pp. 458–469. Brisbane, Australia.
Ershadi, M. J., R. Aiasi, and S. Kazemi. 2018. Root cause analysis in quality problem solving of research information systems: a case study. International Journal of Productivity and Quality Management 24 (2): 28.
Falge, C., B. Otto, and H. Österle. 2012. Data quality requirements of collaborative business processes. 45th Hawaii International Conference on System Sciences.  pp. (4316-4325). IEEE Hawaii.
Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth. 1996. The KDD process for extracting useful knowledge from volumes of data. Communication of ACM, 39 (11): 27–34.
Fox, V., R. Aggarwal, H. Wheltonو and O. Johnson. 2018 A Data Quality Framework for Process Mining of Electronic Health Record Data, 2018 IEEE International Conference on Healthcare Informatics (ICHI), 2018, pp. (12-21), doi: 10.1109/ICHI.2018.00009. New York, NY, USA. 
He ,Y., X. Chu, K. Ganjam, Y. Zheng, V. Narasayya, and S. Chaudhuri. 2018. Transform-data-by-example (tde): an extensible search engine for data transformations. Proceedings of the VLDB Endowment, 11 (10): 1165–1177.
Hellerstein, J. M. 2008. Quantitative data cleaning for large databases. United Nations Economic Commission for Europe (UNECE).
Hu, C., and S. Su. 2004. Hierarchical clustering methods for semiconductor manufacturing data. Proceedings of the IEEE international conference onnetworking, sensing and control, Taiwan.
Schelter S., D. Lange, P. Schmidt, M. Celikel, F. Biessmann, and A. Grafberger. 2018. Automating large-scale data quality verification. Proc. Proceedings of the VLDB Endowment 11 (12): 1781–1794.
Schöpfel, J., O. Azeroual, and G. Saake. 2019. Implementation and user acceptance of research information systems: An empirical survey of German universities and research organisations. Data Technologies and Applications. 2019, 54: 1–15.
Shrivastava, S., D. Patel, A. Bhamidipaty, W. M. Gifford, S. A. Siegel, V. S. Ganapavarapu, and J. R. Kalagnanam. 2019. Dqa: Scalable, automated and interactive data quality advisor. IEEE International Conference on Big Data (Big Data), pp. 2913–2922.
Skinner, K. R., D. C.  Montgomery, G. C. Runger, J. W. Fowler, D. R. McCarville, T. R. Rhoads, et al. 2002. Multivariate statistical methods for modeling and analysis of wafer probe test data. IEEE Transactions on Semiconductor Manufacturing 15 (4): 523–530.
Weiss, S. M., and C. A.  Kulikowski. 1991. Computer systems that learn: classification and prediction methods from statistics, neural nets. Machine learning and expert systems. Los Altos, CA: Morgan Kaufman.
Zhang, T., R. Ramakrishnan, and M. Livny. 1996. BIRCH: an efficient data clustering method for very large databases. ACM SIGMOD International Conference Management of Data, pp. (103–114), Montreal, Canada.