طراحی سامانه نیمه‌خودکار ساخت هستی‌شناسی به‌کمک تحلیل هم‌رخدادی واژگان و روش C-value (مطالعه موردی: حوزه علم‌سنجی ایران)

نویسندگان

1 گروه علم اطلاعات و دانش‌شناسی؛ دانشگاه رازی؛

2 دانشگاه شهید چمران اهواز

3 پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک)

10.35050/JIPM010.2017.008

چکیده

هستی‌شناسی‌ها ابزار بیان رسمی مفاهیم و روابط موجود در قلمرویی خاص هستند. در سال‌های اخیر تلاش‌های زیادی برای طراحی روش‌های یادگیری و خودکار‌سازی فرایند ساخت هستی‌شناسی انجام گرفته است. از آنجا که هستی‌شناسی را مجموعه مفاهیم و روابط آن می‌دانیم، استخراج مفاهیم و روابط معنایی میان این مفاهیم از اهمیت بسیاری برخوردار است. ساخت انواع هستی‌شناسی برای انواع قلمروها و کاربردهای گوناگون، فرایندی پرهزینه و زمان‌بَر بوده و خودکارسازی این فرایند گام مهمی در رفع آن است. فقدان دانش پایه مانند اصطلاح‌نامه‌ها یا پایگاه‌های دانش حوزه‌ها، اکتساب دانش برای ساخت هستی‌شناسی ‌آن حوزه‌ها را مشکل خواهد کرد. در این پژوهش روشی نیمه‌خودکار برای اکتساب دانش در حوزه علم‏‌سنجی ایران ارائه شده که قادر است اطلاعات این حوزه را استخراج کرده و در فرایندی، دانش موجود را برای ساخت هستی‌شناسیِ آن پردازش کند. بدین‌منظور، ابتدا اسناد مرتبط با حوزه مورد نظر گردآوری شده و به ‌روش متن‌کاوی، نمایه‌سازی خودکار گردید. سپس، در مرحله بعدی با استفاده از روش C-value مفاهیم اصلی استخراج شد.آن‌گاه اسناد مربوطه با استفاده از روش خوشه‌بندی k-means، خوشه‌بندی شدند و برای هر خوشه با محاسبه وزن مفاهیم، بر اساس روشTF-IDF مفاهیم کلیدی مناسب استخراج گردید. در پایان، با استفاده از روش تحلیل هم‌رخدادی واژگان، سلسله‌مراتب مفاهیم حوزه استخراج شده و هستی‌شناسی مربوطه ساخته شد. نتایجِ به‌دست ‌آمده نشان می‌دهد که این روش در مقایسه با روش‌های مشابه دقت بسیاری در یادگیری ساخت هستی‌شناسی داشته است.
 

کلیدواژه‌ها


عنوان مقاله [English]

Designing Semiautomatic System In Ontology Structure by To Co-occurrence word Analysis and C-value Method (Case Study: The field of Scientometrics of Iran)

نویسندگان [English]

  • Hamid Ahmadi 1
  • Farideh Osareh 2
  • Molouk Sadat Hosseini Beheshti 3
  • Gholamreza Heidari 2
چکیده [English]

Ontology is one of formal concepts and the relations in the specific regions.It have recently tried to design the learning, automatic methods of Ontology. Whereas Ontology containing concepts and the relations, exploiting concepts, the semantic relations among concept. The various Ontology of regions and different applications are expensive processes that are automatic.The lack of main knowledge such as terminology, the database of knowledge, gaining knowledge of Ontology will make problem in different fields.The present study tries to gain knowledge in the science-logy of Iran due to semi-automatic method that exploit the knowledge of Ontology, therefore, at first, the documents of Domain were collected by digging-text method, automaticfeature, then, it was in the next step that C-value method of main concepts were exploited, they were branched by documents of k-means method due to TF-IDF, key concepts were exploited.Finally due to co-occurrence method of words, the hierarchy of concepts were presented by comparing close, common methods in learning Ontology structure.