دوره 37، شماره 3 - ( بهار 1401 )                   جلد 37 شماره 3 صفحات 838-807 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Farajpahlou A, Osareh F, Fakhrahmad S M, Dehghani L. Introducing a novel method for Automatic facet extraction in the faceted search (Case Study: gynecology and obstetrics domain). .... 2022; 37 (3) :807-838
URL: http://jipm.irandoc.ac.ir/article-1-4690-fa.html
فرج‌پهلو عبدالحسین، عصاره فریده، فخراحمد سید مصطفی، دهقانی لیلا. ارائه روشی نوین برای استخراج خودکار چهریزه‌ها در جستجوهای چهریزه‌ای (مورد مطالعه: حوزه زنان و زایمان). پژوهشنامه پردازش و مديريت اطلاعات. 1401; 37 (3) :838-807

URL: http://jipm.irandoc.ac.ir/article-1-4690-fa.html


دانشگاه علوم پزشکی بوشهر؛ بوشهر؛ ایران.
چکیده:   (615 مشاهده)
هدف این پژوهش ابداع و معرفی الگوریتمی نو برای استخراج چهریزه‌هاست که امکان شناسایی تجربی چهریزه‌ها را با کمک پشتوانه انتشاراتی فراهم می‌کند. الگوریتم پیشنهادی بر مبنای دو ایده شکل گرفته است: ایده اول اینکه چهریزه در بافت بروز پیدا می‌کند. بنابراین، برای تشخیص چهریزه در یک بدنه متنی بایستی بافت یا بستر آن مورد بررسی قرار گیرد و ایده دوم این است که چهریزه نقطه تمرکز در یک درخت واژگانی است که نه بسیار عام و نه بسیار خاص است.
در حوزه پزشکی، دامنه زنان و زایمان به‌عنوان بستر آزمون انتخاب گردید. سه پیکره متنی از درون پشتوانه انتشاراتی انتخاب شد. پیکره بستر، از چکیده و عنوان مجموعه مقالات موجود در 20 مجله برتر حوزه انتخاب شد که در‌برگیرنده 167071 سند بود. پیکره دوم، پیکره منشأ بود که 2000 مقاله به‌صورت تصادفی از پیکره بستر انتخاب شد. پیکره سوم، پیکره واژگانی است که با استفاده از یک سرویس تحت وب و معیار رتبه‌بندی واژگان LIDF-value استخراج گردید. خروجی حاصل دربرگیرنده ‌514 واژه بود. واژگان تکراری حذف شدند و سرانجام، 480 واژه مهم شناسایی شد. سپس، واژگان در پیکره بستر با کمک مجموعه راهنما یعنی «مش» بسط داده شد و پس از آن، بر اساس دو شرط انتقال مبتنی بر تکرار یعنی بیشتر بودن اسناد مرتبط با واژه در بستر نسبت به منشأ و انتقال مبتنی ‌بر رتبه یعنی رشد رتبه موجود واژه در پیکره بستر ‌نسبت به منشأ که نشان‌دهنده عام شدن واژه است، ‌چهریزه‌های کاندید استخراج شدند. سرانجام، با استفاده از سه قاعده اخص بودن، جایگزنی و اعم بودن، چهریزه‌های شناسایی‌شده اصلاح و نام‌گذاری شدند. در نهایت، 26 چهریزه به‌عنوان چهریزه‌های حوزه زنان و زایمان شناسایی شدند.
‌با مقایسه الگوریتم پیشنهادی با دیگر الگوریتم‌ها مشخص شد که ایجاد سه افراز (افراز منشأ و بدنه متنی و افراز برای شناسایی واژگان مهم) و مقایسه رفتار واژه در آن‌ها و سپس، ایجاد درخت بر اساس چهریزه‌های کاندید، یعنی ترکیب رویکرد آماری و هرس درخت می‌تواند نتایج مناسب‌تری نسبت به رویکرد صرفاً آماری یا هرس درخت داشته است. همچنین، مقایسه چهریزه‌های خروجی از الگوریتم و چهریزه‌های سنتی در این زمینه نشان داد که چهریزه‌های خروجی الگوریتم، خرد‌تر و برای مرور در ابزارهای بازیابی اطلاعات مفید‌تر هستند. همچنین، در این پژوهش مشخص شد که چهریزه‌های دامنه تخصصی از چهریزه‌های عمومی در حوزه پزشکی متفاوت است و مستقل از آن‌ها قابل شناسایی و تعریف ‌است، اما نمی‌توان نتایج را به تمامی دامنه‌های پزشکی تعمیم داد و نیاز است که پژوهش‌هایی در دیگر حوزه‌ها صورت گیرد.
متن کامل [PDF 1101 kb]   (248 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: ذخیره و بازیابی
دریافت: 1400/1/21 | پذیرش: 1400/2/8 | انتشار: 1401/1/10

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

تمام حقوق این وب سایت متعلق به پژوهشنامه پردازش و مدیریت اطلاعات می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2022 CC BY-NC 4.0 | Iranian Journal of Information processing and Management

Designed & Developed by : Yektaweb