ارائه مدل دسته‌بندی موضوعی تولیدات علمی حوزه سلامت با استفاده از روش‌های متن‌کاوی

نویسندگان

1 گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان

2 گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان و دکتری بیزینس اینفورماتیک ، دانشگاه کروینوس بوداپست

چکیده

با گسترش اینترنت و رشد سریع و روزافزون مقالات الکترونیکی، دسته‌بندی متون به یکی از ابزارهای کلیدی و مهم برای سازماندهی و مدیریت داده تبدیل‌شده است. در دسته‌­بندی متون، یک مجموعه دانش اولیه در اختیار سامانه قرار می‌گیرد تا با یادگیری از این مجموعه، اسناد جدید ورودی به یکی از گروه‌های موضوعی، ملحق گردد. در متون سلامت به علت تنوع زیاد موضوعات، آماده کردن چنین مجموعه آموزش اولیه عملی بسیار زمان­بر و هزینه­‌بر است. هدف از مقاله ارائه مدلی ترکیبی از یادگیری (با نظارت و بدون نظارت) برای دسته‌بندی موضوعی تولیدات علمی حوزه سلامت است که بدون نیاز به مجموعه برچسب خورده اولیه عمل دسته­‌بندی را انجام ­دهد. برای استخراج مدل موضوعی متون تولیدات علمی سلامت طی سال‌های 2009 تا 2019 در پایگاه پابمد، با استفاده از روش آمیخته داده‌کاوی، شامل متن‌کاوی و یادگیری ماشینی انجام گرفت. بر اساس مدل موضوعی تخصیص پنهان دیریکله، دادها تحلیل و سپس برای دسته‌بندی متون، از مدل ماشین بردار پشتیبان استفاده شد. در یافته‌های این پژوهش، مدل دسته‌بندی متون سلامت در سه‌گام اصلی معرفی شد. در گام اول پیش‌پردازش‌های لازم بر روی مجموعه داده به دلیل حذف کلمات کم تکرار و غیرضروری از مجموعه داده و افزایش دقت مدل پیشنهادی انجام گرفت. در گام دوم موضوعات موجود در متون به کمک روش احتمالاتی تخصیص پنهان دیریکله استخراج و به‌عنوان یک مجموعه آموزش اولیه در گام سوم به الگوریتم دسته‌بندی ماشین بردار پشتیبان داده و عمل یادگیری دسته‌بند به کمک این موضوعات انجام گرفت. درنهایت به کمک دسته‌بند، موضوع هر سند مشخص گردید. نتایج نشان داد که مدل پیشنهادی می‌تواند، یک دسته‌بندی بهتر با استفاده از ترکیب کردن خواص بدون نظارت خوشه‌بندی و دانش پیشین نمونه‌ها بسازد. انجام دادن خوشه‌بندی روی نمونه‌های برچسب دار با یک معیار شباهت مشخص، متن‌های مرتبط را باهم ادغام و یک دانش پیشین ایجاد کرده، سپس الگوریتم یادگیری، دسته‌بندی را با روشی نظارتی آموزش می‌دهد. ترکیب دسته‌بندی و خوشه‌بندی می‌تواند دقت دسته‌بندی متون سلامت را افزایش دهد.

کلیدواژه‌ها


عنوان مقاله [English]

Presenting a Thematic Model of Health Scientific Productions Using Text-Mining Methods

نویسندگان [English]

  • Mahboobeh Shokouhian 1
  • Asefe Asemi 2
  • Ahmad Shabani 1
  • Mozaffar Cheshmesohrabi 1
چکیده [English]

With the proliferation of the Internet and the rapid growth of electronic articles, text classification has become one of the key and important tools for data organization and management. In text classification a set of basic knowledge is provided to the system by learning. Then, new input documents enter to one of the subject groups. In health literature due to wide variety of topics, preparing such a set of early education is a very time consuming and costly task. The purpose of this article is to present a hybrid model of learning (supervised and unsupervised) for the subject classification of health scientific products that performs the classification operation without the need for an initial labeled set. To extract the thematic model of health science texts from 2009 to 2019 at PubMed database, data mining and text mining were performed using machine learning. Based on Latent Dirichlet Allocation model, the data were analyzed and then the Support Vector Machine was used to classify the texts. In the findings of this study, the model was introduced in three main steps. In data preprocessing, the unnecessary words were eliminated from the data set and the accuracy of the proposed model increased. In the second step, the themes in the texts were extracted using the Latent Dirichlet Allocation method, and as a basic training set in step 3, the data were backed up by the Support Vector Machine algorithm and the classifier learning was performed with the help of these topics. Finally, with the help of the classification, the subject of each document was identified. The results showed that the proposed model can build a better classification by combining unsupervised clustering properties and prior knowledge of the samples. Clustering on labeled samples with a specific similarity criterion merges related texts with prior knowledge, and the learning algorithm teaches classification by supervisory method. Combining classification and clustering can increase the accuracy of classification of health texts.

کلیدواژه‌ها [English]

  • health
  • Latent Dirichlet Allocation
  • Machine Learning
  • Scientific Production
  • Support Vector Machine Algorithm
  • Text Classification
  • text mining
  • Topic Model