Farajpahlou A, Osareh F, Fakhrahmad S M, Dehghani L. Introducing a novel method for Automatic facet extraction in the faceted search (Case Study: gynecology and obstetrics domain). .... 2022; 37 (3) :807-838
URL:
http://jipm.irandoc.ac.ir/article-1-4690-fa.html
فرجپهلو عبدالحسین، عصاره فریده، فخراحمد سید مصطفی، دهقانی لیلا. ارائه روشی نوین برای استخراج خودکار چهریزهها در جستجوهای چهریزهای (مورد مطالعه: حوزه زنان و زایمان). پژوهشنامه پردازش و مديريت اطلاعات. 1401; 37 (3) :838-807
URL: http://jipm.irandoc.ac.ir/article-1-4690-fa.html
دانشگاه علوم پزشکی بوشهر؛ بوشهر؛ ایران.
چکیده: (500 مشاهده)
هدف این پژوهش ابداع و معرفی الگوریتمی نوین برای استخراج چهریزهها ست که امکان تجربی شناسایی چهریزهها با کمک پشتوانه انتشاراتی را فراهم میکند. الگوریتم پیشنهادی بر مبنای دو ایده شکل گرفته است: ایده اول این است که چهریزه در بافت بروز پیدا میکند. بنابراین برای تشخیص چهریزه در یک بدنه متنی بایستی بافت یا بستر آن مورد بررسی قرار گیرد و ایده دوم این است که چهریزه نقطه تمرکز در یک درخت واژگانی است که نه بسیار عام و نه بسیار خاص است.
در حوزه پزشکی، دامنه زنان و زایمان به عنوان بستر آزمون انتخاب گردید. سه پیکرهی متنی از درون پشتوانه انتشاراتی انتخاب شد. پیکرهی بستر، از چکیده و عنوان مجموعه مقالات موجود در ۲۰ مجله برتر حوزه انتخاب شد که در برگیرنده ۱۶۷۰۷۱ سند بود. پیکره دوم، پیکره منشاء بود که ۲۰۰۰ مقاله به صورت تصادفی از پیکره بستر، انتخاب شد. پیکره سوم، پیکره واژگانی است که با استفاده از یک سرویس تحت وب و معیار رتبهبندی واژگان LIDF-value استخراج گردید. خروجی حاصل، در برگیرنده ۵۱۴ واژه بود. واژگان تکراری حذف شدند و در نهایت ۴۸۰ واژه مهم شناسایی شد. سپس، واژگان در پیکره بستر با کمک مجموعه راهنما یعنی Mesh ، بسط داده شد و پس از آن بر اساس دو شرط انتقال مبتنی بر تکرار یعنی بیشتر بودن اسناد مرتبط با واژه در بستر نسبت به منشاء و انتقال مبتنی بر رتبه یعنی رشد رتبه موجود واژه در پیکره بستر نسبت به منشاء که نشاندهنده عام شدن واژه است، چهریزههای کاندید استخراج شدند. در نهایت با استفاده از سه قاعدهی اخص بودن، جایگزنی و اعم بودن، چهریزههای شناسایی شده اصلاح و نامگذاری شدند. در نهایت ۲۶ چهریزه به عنوان چهریزههای حوزه زنان و زایمان شناسایی شدند.
با مقایسه الگوریتم پیشنهادی با دیگر الگوریتمها مشخص شد که ایجاد سه افراز (افراز منشاء و بدنه متنی و افراز برای شناسایی واژگان مهم) و مقایسه رفتار واژه در آنها و سپس ایجاد درخت بر اساس چهریزههای کاندید یعنی ترکیب رویکرد آماری و هرس درخت میتواند نتایج مناسب تری نسبت به رویکرد صرفاً آماری یا هرس درخت داشته است. همچنین، مقایسه چهریزههای خروجی از الگوریتم و چهریزههای سنتی در این زمینه نشان داد که چهریزههای خروجی الگوریتم، خردتر و برای مرور در ابزارهای بازیابی اطلاعات مفیدتر هستند. همچنین،در این پژوهش مشخص شد که چهریزههای دامنه تخصصی از چهریزههای عمومی در حوزه پزشکی متفاوت است و مستقل از آنها قابل شناسایی و تعریف است اما نمیتوان، نتایج را به تمامی دامنههای پزشکی تعمیم داد و نیاز است پژوهشهای دیگری در دیگر حوزهها صورت گیرد.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
ذخیره و بازیابی دریافت: 1400/1/21 | پذیرش: 1400/2/8 | انتشار: 1401/1/10