[صفحه اصلی ]   [Archive] [ English ]  
irandoc irandoc irandoc irandoc irandoc
:: دوره 32، شماره 4 - ( تابستان 1396 ) ::
جلد 32 شماره 4 صفحات 1143-1170 برگشت به فهرست نسخه ها
طبقه‌بندی انواع دادگان موردنیاز و روش‌های خطایابی و استانداردسازی متنی
ملوک‌السادات حسینی‌بهشتی ، هادی عبدی قویدل
استادیار پژوهشگاه علوم وفناوری اطلاعات ایران(ایرانداک)
چکیده:   (1477 مشاهده)

یکی از پایه‌ای‌ترین مراحل پردازش‌ خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌ها است. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه می‌شود که این امر موجب اختلال در بازیابی ماشینی آنها می‌گردد. بدین‌ترتیب، متخصصین حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش هستند تا با ارائه‌ی روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته‌ی پردازش قرار داده تا به داده‌ی استاندارد دست یابند. در زبان انگلیسی و برخی زبانهای دیگر، تحقیقات متعددی در این زمینه انجام شده است که به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاها در حد پژوهش به قوت خود باقی مانده و گاها در قالب محصول عرضه شده است. مقاله‌ی حاضر به طبقه‌بندی انواع روش‌ها و دادگان موردنیاز در این تحقیقات متعدد پرداخته و فرایند هرکدام از آنها را به طور خاص و نحوه‌ی سنجش میزان دقت پردازش آنها را به طور عام شرح می‌دهد. این مقاله همچنین نحوه‌ی عملکرد سامانه‌های تک‌زبانه‌ی فارسی را توصیف نموده و به نحوه‌ی برخورد آنها با چالش‌های زبان فارسی اشاره می‌کند. 

واژه‌های کلیدی: تشخیص خطاهای املایی، استانداردسازی نویسه‌ها، طبقه‌بندی روش‌ها، سامانه‌های تک‌زبانه‌ی فارسی، چالش‌های زبان فارسی
متن کامل [PDF 805 kb]   (535 دریافت)    
نوع مطالعه: مروري | موضوع مقاله: فناوري اطلاعات
دریافت: ۱۳۹۴/۱۱/۶ | پذیرش: ۱۳۹۵/۵/۱۲ | انتشار: ۱۳۹۵/۵/۳۱
ارسال پیام به نویسنده مسئول

ارسال نظر درباره این مقاله
نام کاربری یا پست الکترونیک شما:

کد امنیتی را در کادر بنویسید >



XML   English Abstract   Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Hosseini Beheshti M S, Abdi Ghavidel H. Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization. Journal of Information Processing and Management. 2017; 32 (4) :1143-1170
URL: http://jipm.irandoc.ac.ir/article-1-3088-fa.html
حسینی‌بهشتی ملوک‌السادات، عبدی قویدل هادی. طبقه‌بندی انواع دادگان موردنیاز و روش‌های خطایابی و استانداردسازی متنی. پژوهشنامه پردازش و مديريت اطلاعات. 1396; 32 (4) :1143-1170

URL: http://jipm.irandoc.ac.ir/article-1-3088-fa.html

دوره 32، شماره 4 - ( تابستان 1396 ) برگشت به فهرست نسخه ها
پژوهشنامه پردازش و مدیریت اطلاعات Journal of Information processing and Management
نقشه پايگاه | پرسش‌هاي متداول | اطلاع‌رساني به دوستان | آمار پايگاه | حقوق | مسئوليت محتوا | روزآوري: ۱۳۹۶/۶/۲۹
كليه حقوق براي فصل‌نامه پردازش و مديريت اطلاعات محفوظ است.
Persian site map - English site map - Created in 0.139 seconds with 845 queries by yektaweb 3470