خوشه‌بندی کاربران داده‌های دریایی با استفاده از تکنیک داده‌کاوی

نویسندگان

1 پژوهشگاه ملی اقیانوس شناسی و علوم جوی

2 دانشگاه شهید بهشتی

چکیده

هدف از این تحقیق خوشه‌بندی کاربران داده های دریایی با استفاده از تکنیک داده کاوی است. با محقق شدن این هدف، سازمانهای دریایی قادر به شناخت داده‌های موجود خود و همچنین اطلاع از نیازهای کاربران خود خواهند شد. در این تحقیق برای پیاده‌سازی داده کاوی از مدل استاندارد CRISP-DM استفاده شده است. داده‌های مورد نیاز، از اطلاعات و پروفیل 500 کاربر داده‌ دریایی از سال 1386 تا 1393 در پژوهشگاه ملی اقیانوس‌شناسی و علوم جوی، استخراج شده است. برای خوشه‌بندی از الگوریتم TwoStep استفاده شده است. در این تحقیق، برای نخستین بار با استفاده از خوشه‌بندی، الگویی میان کاربران داده‌های دریایی اعم از دانشجو، سازمان و پژوهشگر، و اطلاعات داده‌های مورد درخواست آنها (منبع داده، نوع داده، مجموعه داده، پارامتر و منطقه جغرافیایی) کشف شد. مهمترین خوشه های بدست آمده عبارتند از کاربر دانشجو با منبع داده بین المللی، کاربر دانشجو با نوع داده شیمی دریا، کاربر دانشجو با مجموعه داده "پایگاه داده اقیانوسی جهانی"، کاربر سازمان با پارامتر نیترات و کاربر دانشجو با منطقه جغرافیایی خلیج فارس. کشف این الگوها، مدیران ارشد را قادر می‌سازد تا بدرستی در مورد داده‌های موجود خود و برنامه‌ریزی برای جمع‌آوری داده در آینده، تصمیم‌گیری کنند و درک بهتری از نیازهای کاربران خود داشته باشند، همچنین کاربران داده در راستای تقاضای خود هدایت شوند. در پایان پیشنهاداتی بمنظور بهبود عملکرد سازمانهای دریایی ارائه شده است.

کلیدواژه‌ها


عنوان مقاله [English]

Marine data users clustering using data mining technique

نویسندگان [English]

  • Farnaz Ghiasi 1
  • Navid Nezafati 2
  • Sajjad Shokohyar 2
چکیده [English]

The objective of this research is marine data users clustering using data mining technique. To achieve this objective, marine organizations will enable to know their data and users requirements. In this research, CRISP-DM standard model was used to implement the data mining technique. The required data was extracted from 500 marine data users profile database of Iranian National Institute for Oceanography and Atmospheric Sciences (INIOAS) from 1386 to 1393. The TwoStep algorithm was used for clustering. In this research, patterns was discovered between marine data users such as student, organization and scientist and their data request (Data source, Data type, Data set, Parameter and Geographic area) using clustering for the first time. The most important clusters are: Student with International data source, Chemistry data type, “World Ocean Database” dataset, Persian Gulf geographic area and Organization with Nitrate parameter. Senior managers of the marine organizations will enable to make correct decisions concerning their existing data. They will direct to planning for better data collection in the future. Also data users will guide with respect to their requests. Finally, the valuable suggestions were offered to improve the performance of marine organizations.

کلیدواژه‌ها [English]

  • CRISP-DM standard
  • TwoStep algorithm
  • Clustering
  • Data Mining
  • Marine data