دوره 37، شماره 3 - ( بهار 1401 )                   جلد 37 شماره 3 صفحات 918-895 | برگشت به فهرست نسخه ها


XML English Abstract Print


پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران؛ ایران
چکیده:   (720 مشاهده)
در این مقاله یک روش جدید برای برچسب‌گذاری تصاویر موجود در متون علمی فارسی معرفی می‌شود. در اسناد و مقالات علمی، تصاویر حاوی اطلاعلات مهمی هستند و در بسیاری از موارد با بررسی آنها به تنهایی می‌توان به ایده اصلی و یا نتایج مهم مقاله علمی پی برد، بدون اینکه لازم باشد کل مقاله را مطالعه کرد. به خاطر رشد روز افزون داده‌های تصویری، بازیابی تصاویر از اسناد علمی توجه زیادی به خود جلب کرده است و تبدیل به یک موضوع رو به رشد در ادبیات شده است. اولین قدم در بازیابی تصاویر تخصیص برچسب‌های توصیف کننده به هر تصویر است. 
در اینجا برای استخراج برچسب تصویر از متن سندی که تصویر به آن تعلق دارد استفاده شده است. زیرنویس و قسمتی از متن سند که در آن، به تصویر مورد نظر اشاره شده است در نظر گرفته می‌شود. عبارات اسمی در متن همراه تصویر با استفاده از پنج روش متفاوت؛ فراوانی عبارات در سند، معکوس فراوانی سند، فراوانی کلمه- معکوس فراوانی سند، شباهت کسینوسی عبارات با زیرنویس و ترکیب روش فراوانی کلمه- معکوس فراوانی سند و شباهت کسینوسی با زیرنویس، رتبه بندی می‌شوند. برچسب‌های انتخابی برای تصویر در هر روش، عبارات اسمی با رتبه بالاتر در آن روش است. روش‌های معرفی شده با استفاده از داده آزمایشی از پایگاه اطلاعات علمی ایران (گنج) که منبع اصلی اسناد علمی فارسی است، ارزیابی می‌شوند. طبق نتایج بدست آمده در این تحقیق روش فراوانی کلمه- معکوس فراوانی سند بهترین روش برای برچسب زدن تصاویر موجود در اسناد علمی است.
متن کامل [PDF 2104 kb]   (273 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: تحلیل داده‌های کلان
دریافت: 1400/1/8 | پذیرش: 1400/2/26 | انتشار: 1401/1/10

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.