تشخیص خودکار صفحات فهرست با توجه به الگوی آنها در پایان‌نامه‌های فارسی و لاتین

فرامرزی, اسماعیل

تشخیص خودکار صفحات فهرست با توجه به الگوی آنها در پایان‌نامه‌های فارسی و لاتین

نویسنده

اسماعیل فرامرزی

چکیده

صفحات فهرست در هر نوع مدرک (کتاب، مجله، پایان‌نامه، ...)، به نحو مختصر و فشرد‌ه، ساختار منطقی آن مدرک را بیان می‌کنند و به کمک آن‌‌ها می‌توان به راحتی ساختار مدرک را مشاهده نمود و مستقیماً به مطالب مورد نظر دست یافت. در این مقاله برای اولین بار روشی به منظور شناسایی خودکار صفحات فهرست در پایان‌نامه‌‌های فارسی، عربی و لاتین ارائه می‌شود. در این روش، شناسایی صفحات فهرست با توجه به الگوی آن‌‌ها بدون استفاده از عملیات بازشناسی متن (اُسی‌آر) و تنها با به‌کارگیری فنون پردازش تصویر، مد نظر بوده. با این روش می‌توان صفحات فهرست را صرف نظر از نوع زبان و ترازبندی (راست به چپ یا چپ به راست بودن) متن آن‌‌ها، شناسایی کرد و به دلیل عدم استفاده از اُسی‌آر، تابع کیفیت متن مدرک اسکن‌شده نیست. روش مذکور بر روی دسته‌ای از پایان‌نامه‌‌های فارسی، عربی و لاتین موجود در پایگاه اطلاعاتی پژوهشگاه اطلاعات و مدارک علمی ایران مورد آزمایش قرار گرفت و دقت 7/99 درصد در بازشناسی صحیح حاصل گردید.

کلیدواژه‌ها

تحلیل تصویر مدارک (دی‌آی‌ای)

تحلیل پیکربندی صفحات

تحلیل ساختاری مدارک

تحلیل منطقی مدارک

درک تصویر مدارک

شناسایی صفحات فهرست

پردازش

عنوان مقاله English

Automatic Recognition of Table of Content Given their Stylistics in Farsi and Western Dissertation

نویسنده English

Esmaeil Faramarzi

چکیده English

In any type of document, whether book, magazine, dissertation or likes, the table of content expresses concisely its logical structure. By using table of contents, the document structure is easily reviewed and the desired topic could be readily accessed. The present paper presents for the first time a method for automated recognition of the table of content in dissertations written in Farsi, Arabic and any other western script. In this method the content pages are recognized given their patterns without employing OCR and merely using image processing techniques. The method can recognize the table of content pages regardless of the language or text justifications. Since it does not use OCR, it is independent of the document scan quality. The method was tested over a number of IRANDOC Farsi, Arabic and Western Dissertations. Recognition accuracy of 99.7 percent was achieved.

کلیدواژه‌ها English

Document image analysis

Page Layout analysis

Structural analysis

Logical analysis

Document Image understanding

content page recognition

image processing

OCR

Pattern recognition

دوره 21، شماره 3
پاییز 1385
صفحه 1-34

XML

اصل مقاله 1.21 M

تاریخ دریافت 19 آذر 1401

تعداد مشاهده مقاله 582
تعداد دریافت فایل اصل مقاله 195

پژوهشنامه پردازش و مدیریت اطلاعات

تشخیص خودکار صفحات فهرست با توجه به الگوی آنها در پایان‌نامه‌های فارسی و لاتین

Automatic Recognition of Table of Content Given their Stylistics in Farsi and Western Dissertation

دوره 21، شماره 3پاییز 1385صفحه 1-34

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

دوره 21، شماره 3
پاییز 1385
صفحه 1-34