پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)
چکیده: (1139 مشاهده)
در تهیه سامانه های برچسب گذاری اجزای کلام در زبان فارسی، بررسی ساختواژی اسم ها و صفت ها از دو نظر حائز اهمیت است: 1- اگر کلمه ای قبلاً در پیکره آموزشی ظاهر نشده باشد، نمی توان از پیکره آموزشی اطلاعات دقیقی راجع به آن کلمه به دست آورد . بنابراین، اگر در یک پیکره متنی فارسی، کلمه ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی توان برچسب های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می شوند) یا بافتی که کلمه در آن ظاهر میشود، یا هر دو، حدس زد. 2- زبان فارسی ظرفیت بالایی برای ساخت هم نگاره های جدید که از ساختواژه فارسی نشأت میگیرند، را نیز دارد بنابراین، بررسی ساختواژی اسم ها و صفت ها، به منظور تفکیک آنها از هم ضروری به نظر میرسد، زیرا اکثر صفت ها در بافت های گوناگون، با صورت نوشتاری یکسان، می توانند برچسب «اسم» بگیرند. در تحقیق حاضرساختواژه اسم ها و صفت ها در فارسی بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی قرار گرفته است تا از این رهگذر بتوان به شناسایی انواع هم نگاره ها در زبان فارسی پرداخت. سپس، انواع هم نگاره ها در زبان فارسی مورد مطالعه قرار گرفته است و در نهایت از طریق جستجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم نگاره ها از پیکره های "پیکره متنی زبان فارسی"، "پایگاه دادگان زبان فارسی" و "پیکره وابستگی نحوی زبان فارسی" تهیه شده است. بررسی کلی هم نگاره ها در پیکره های مورد مطالعه نشان میدهد که بیشتر هم نگاره ها، فراوانی بالایی در پیکره های متنی فارسی دارند و اکثر آنها در اثر یکسان بودن نمود نوشتاری تکواژ یاء نکره، یاء اسمساز، شناسه دوم شخص مفرد، یاء صفت ساز و یاء متصل به گروه اسمی، ایجاد شده اند.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
فناوري اطلاعات دریافت: ۱۳۹۶/۷/۲۲ | پذیرش: ۱۳۹۶/۱۲/۶ | انتشار: ۱۳۹۶/۱۲/۲۰