امکان سنجی توسعه هستی شناسی به روش نیمه خودکار مبتنی بر تحلیل بسامد واژگان: مطالعه موردی بیماری «گلوکوم»

نویسندگان

1 دانشگاه آزاد اسلامی؛ واحد علوم وتحقیقات؛ تهران؛ ایران

2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران؛ ایران

3 دانشگاه آزاد اسلامی؛ واحد علوم و تحقیقات؛ تهران؛ ایران

چکیده

تغییر رویکرد نظام­های اطلاعاتی از پردازش واژه به پردازش مفهوم، موجب توجه به هستی­شناسی­ها شده است. در علوم پزشکی و بیماری­های انسان، به لحاظ وجود تنوع در اصطلاحات و لزوم اشتراک اطلاعات از طریق نرم­افزارهای مختلف مانند پرونده­های پزشکی، سامانه­های ثبت سوابق بهداشتی و...  بکارگیری هستی­شناسی­ها ضروری به­نظر می­رسد. در  پژوهش حاضر، رویکردی نیمه­خودکار برای توسعه هستی­شناسی پیشنهاد شده است که می­تواند با استفاده از ابزارهای متن­کاوی، شناسایی مولفه­های ساختاری هستی­شناسی و تعیین نسبی روابط را از متون علمی تسهیل کند. مدل پیشنهادی در قالب کد نرم­افزاری با نام اختصاری «TmbOnt_Alfa[1]» ارائه شده است. این کد با استفاده از رابط کاربر، فایل متنی ورودی را فراخوانی کرده و پس از پردازش بر اساس تنظیمات، اصطلاحات کلیدی برای توسعه هستی­شناسی را استخراج می­کند. به منظور ارزیابی کارایی روش پیشنهادی، مطالعه موردی در حوزه بیماری «گلوکوم» با داده­های متنی مشتمل بر10،000 چکیده مقاله از «PubMed[2]» برمبنای جستجوی واژگانی تهیه گردید. پس از مراحل پردازش، مفاهیم و ساختار سلسله مراتبی هستی شناسی حاصل در پروتژ وارد شد. سرانجام، سنجش قیاسی هستی­شناسی توسعه­یافته با سرعنوان پزشکی «MESH[3]»، «اصطلاح­نامه وتوصیفگرهای پزشکی فارسی» و «هستی­شناسی  بیماری­ها» و «هستی­شناسی BAO[4]» نشان داد که میانگین دقت مفاهیم و میانگین دقت مکانی مفاهیم بیش از 70 درصد با هستی­شناسی­های بازنمایی شده در پایگاه­های معتبر هستی­شناسی بیماری­های انسانی «Bio-Ontologies» انطباق داشته و به طور میانگین بیش از 30 درصد واژگان جدید برای افزودن به دامنه را فراهم کرده است.
 

[1]  Text miner for base ontology development, Alfa version

[2]  https://pubmed.ncbi.nlm.nih.gov/

[3]   https://www.ncbi.nlm.nih.gov/mesh/

[4]  https://bioportal.bioontology.org/ontologies/BAO

کلیدواژه‌ها


عنوان مقاله [English]

Feasibility study of ontological development based on semi-automatic method based on lexical frequency analysis: A case study of "glaucoma"

نویسندگان [English]

  • Somayeh Tamjid 1
  • Fatemeh Nooshinfard 1
  • Moluk S. Hoseini Beheshti 2
  • nadjla Hariri 3
چکیده [English]

Following recent trends in information management systems, conventional word-based information retrieval methods are changing to concept-based approaches by means of the broad application of ontologies. More specifically, the use of ontologies for knowledge management is significant in the medical sciences and human disease domains due to the diversity and necessity of information sharing between numerous data repositories such as medical records, health record systems, and so on. Furthermore, ontologies make natural language processing approaches more feasible by reducing semantic ambiguity and making concepts comprehensible to computer-based deductions. In this research, a semi-automated approach for ontology development is proposed, which assists in identifying structural components of an ontology and determining possible relations between them based on scientific text records. The proposed approach, in a general view, includes the gathering of a large volume of technical data in text format, processing, and extraction of results with a minimal contribution of human-based supervision. The processing stage is coded in Matlab code named TmbOnt_Alfa and applies two main techniques including word frequency and Lexico-Synactic patterns analysis, to identify concepts and relations, respectively. The role of the human supervisor is narrowed to entering target terms, eliminating unnecessary outputs, and finalizing the ontology structure. In order to evaluate the efficiency of the proposed method, a case study for ontological development in the field of glaucoma has been conducted, and results are compared with medical subject headings of MESH descriptors, the Persian medical thesaurus, ontology of diseases, and Bioassay ontology (BAO).
According to results, the developed ontology, when compared by Glaucoma entry, covered 80% of the medical titles in Mesh, 100% of the medical terms developed in the Persian Medical Thesaurus, and 100% of the Persian medical descriptors. Moreover, the resultant ontology structure is compatible with more than 90% of the same ontology represented in Bioassay and 57% of the ontology of diseases (DO). It also proposed an average of 30% more terms for existing ontological structures.

کلیدواژه‌ها [English]

  • ontology
  • text mining
  • information representation
  • glaucoma
  • eye disease
  • medical thesaurus
  • protégé