دوره 35، شماره 3 - ( بهار 1399 )                   جلد 35 شماره 3 صفحات 729-754 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Fakhrzadeh A, Seddighi A H. A Structure-Based Method for Building a Database of Extracted Figures from Scientific Documents: A Case Study of Iran Scientific Information Database (GANJ). .... 2020; 35 (3) :729-754
URL: http://jipm.irandoc.ac.ir/article-1-4220-fa.html
فخرزاده آزاده، صدیقی امیرحسین. ارائه روشی ساختارمحور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی؛ مورد مطالعه: پایگاه اطلاعات علمی ایران (گنج). پژوهشنامه پردازش و مديريت اطلاعات. 1399; 35 (3) :729-754

URL: http://jipm.irandoc.ac.ir/article-1-4220-fa.html


پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)
چکیده:   (952 مشاهده)
تصاویر موجود در مدارک علمی اغلب حاوی اطلاعات مهمی هستند. اولین قدم برای بازیابی اطلاعات از این تصاویر ایجاد یک پایگاه داده معتبر از آنهاست. به این منظور در این مقاله سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه میشود. این سیستم پیشنهادی بهدنبال مطالعات اسنادی طراحی شده و بخشهای مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آنها استخراج گردد. بهطور کلی، دو رویکرد برای استخراج تصاویر و توضیح متنی آنها از فایل وجود دارد. در رویکرد اول، فایل به تصویر تبدیل میشود و از تکنیکهای پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده میشود. رویکرد دوم، بر اساس پردازش ساختار و آرایش خود فایل است. از آنجا که روش دوم از لحاظ سرعت و قابلیت مقیاسپذیری برای استفاده در موتورهای جستوجو مناسبتر است، تمرکز این مقاله بر روی روش دوم است. بدینترتیب، برای استخراج تصاویر و توضیح متنی آنها از یک روش ساختارمحور استفاده میشود که مبتنی بر چیدمان و آرایش فایل وُرد سند است. در نتیجه، مجموعهای از تصاویر به همراه توضیحات و اطلاعات مربوط به آنها بهدست میآید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس، این اطلاعات برای بازیابی و استفادههای آتی در یک موتور جستوجو نمایه خواهند شد.
روش پیشنهادی در زبان برنامهنویسی «پایتون» پیادهسازی شد و برای ارزیابی کارایی آن از روش مرسوم پردازش فایل «پیدیاف» اسناد کمک گرفته شد. سپس، روش پیشنهادی در یک مطالعه موردی در «پایگاه اطلاعات علمی ایران (گنج)» بهکار گرفته شد. تعداد 150 مدرک علمی به تصادف از «پایگاه گنج» انتخاب شده و با کمک این دو روش مورد تجزیه و تحلیل قرار گرفت. بنا به یافتههای پژوهش دیده میشود که استخراج اطلاعات متنی از فایل «پیدیاف» در زبان فارسی با چالشهای زیادی روبهروست و نمیتواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر، میزان تصاویر نامطلوب تولیدشده از فایل «پیدیاف» بسیار زیاد است که از کاربستپذیری آن در شرایط واقعی میکاهد. از این رو، روش پیشنهادی بهعنوان گزینهای مناسب برای استخراج تصویر و توضیحات آنها از اسناد علمی در زبان فارسی و ایجاد پایگاه داده از آنها پیشنهاد میشود. روش پیشنهادی قادر است حدود 40 درصد تصاویر را همراه با زیرنویس مربوطه بدون خطا استخراج کند و نسبت به روش پایه که قادر به استخراج 30 درصد از تصاویر است، کارایی بهتری دارد.
متن کامل [PDF 1297 kb]   (204 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: فناوري اطلاعات
دریافت: 1398/1/21 | پذیرش: 1398/8/5 | انتشار: 1399/3/28

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


تمام حقوق این وب سایت متعلق به پژوهشنامه پردازش و مدیریت اطلاعات می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2020 All Rights Reserved | Iranian Journal of Information processing and Management

Designed & Developed by : Yektaweb