[صفحه اصلی ]   [Archive] [ English ]  
irandoc irandoc irandoc irandoc irandoc
:: ::
برگشت به فهرست مقالات برگشت به فهرست نسخه ها
بررسی پیکره-بنیاد هم‌نگاره‌های اسمی و صفتی فارسی جهت کمک به برچسب‌گذاری صحیح اجزای کلام(96/12/20)
الهام علایی ابوذر
استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)
چکیده:   (323 مشاهده)
     در تهیه سامانه­ های برچسب­ گذاری اجزای کلام در زبان فارسی، بررسی ساخت­واژی اسم ­ها  و صفت ها از دو نظر حائز اهمیت است: 1- اگر کلمه ­ای قبلاً در پیکره آموزشی ظاهر نشده باشد، نمی ­توان از پیکره آموزشی اطلاعات دقیقی راجع به آن کلمه به دست آورد . بنابراین، اگر در یک پیکره متنی فارسی، کلمه ­ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی ­توان برچسب­ های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می ­توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می­ شوند) یا بافتی که کلمه در آن ظاهر می­شود، یا هر دو، حدس زد. 2- زبان فارسی ظرفیت بالایی برای ساخت هم ­نگاره ­های جدید که از ساخت­واژه فارسی نشأت می­گیرند، را نیز دارد بنابراین، بررسی ساخت­واژی اسم ­ها و صفت ها، به منظور تفکیک آن­ها از هم ضروری به نظر می­رسد، زیرا اکثر صفت­ ها در بافت­ های گوناگون، با صورت نوشتاری یکسان، می­ توانند برچسب «اسم» بگیرند. در تحقیق حاضرساخت­واژه اسم ­ها و صفت ­ها در فارسی  بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی  قرار گرفته است تا از این رهگذر بتوان به شناسایی انواع هم ­نگاره ­ها در زبان فارسی پرداخت. سپس، انواع هم ­نگاره ­ها در زبان فارسی مورد مطالعه  قرار گرفته است و در نهایت از طریق جستجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم ­نگاره ­ها از پیکره ­های "پیکره متنی زبان فارسی"، "پایگاه دادگان زبان فارسی" و "پیکره وابستگی نحوی زبان فارسی" تهیه شده است. بررسی کلی هم ­نگاره ­ها در پیکره­ های مورد مطالعه نشان می­دهد که بیشتر هم­ نگاره­ ها، فراوانی بالایی در پیکره­ های متنی فارسی دارند و اکثر آن­ها در اثر یکسان بودن نمود نوشتاری تکواژ یاء نکره، یاء اسم­ساز، شناسه دوم شخص مفرد، یاء صفت ­ساز و یاء متصل به گروه اسمی، ایجاد شده­ اند.
 
واژه‌های کلیدی: سامانه برچسب‌گذاری اجزای کلام، ساخت‌واژه اسم‌ها و صفت‌های فارسی، نظام نوشتاری فارسی، هم‌نگاره‌ها
متن کامل [PDF 938 kb]   (90 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: فناوري اطلاعات
دریافت: ۱۳۹۶/۷/۲۲ | پذیرش: ۱۳۹۶/۱۲/۶ | انتشار: ۱۳۹۶/۱۲/۲۰
ارسال پیام به نویسنده مسئول

ارسال نظر درباره این مقاله
نام کاربری یا پست الکترونیک شما:

کد امنیتی را در کادر بنویسید >


XML   English Abstract   Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Alayiaboozar E. A Corpus-based study of Persian noun and adjective homographs to help right POS tagging. Journal of Information Processing and Management. 2009;
URL: http://jipm.irandoc.ac.ir/article-1-3740-fa.html

علایی ابوذر الهام. بررسی پیکره-بنیاد هم‌نگاره‌های اسمی و صفتی فارسی جهت کمک به برچسب‌گذاری صحیح اجزای کلام(96/12/20). پژوهشنامه پردازش و مديريت اطلاعات. 1388;

URL: http://jipm.irandoc.ac.ir/article-1-3740-fa.html



برگشت به فهرست مقالات برگشت به فهرست نسخه ها
پژوهشنامه پردازش و مدیریت اطلاعات Journal of Information processing and Management
نقشه پايگاه | پرسش‌هاي متداول | اطلاع‌رساني به دوستان | آمار پايگاه | حقوق | مسئوليت محتوا | روزآوري: ۱۳۹۶/۱۲/۲۷
كليه حقوق براي فصل‌نامه پردازش و مديريت اطلاعات محفوظ است.
Persian site map - English site map - Created in 0.32 seconds with 36 queries by YEKTAWEB 3647