بررسی پیکره‌بنیاد هم‌نگاره‌های اسمی و صفتی فارسی جهت کمک به برچسب‌گذاری صحیح اجزای کلام

علایی ابوذر, الهام

doi:10.35050/JIPM010.2019.061

بررسی پیکره‌بنیاد هم‌نگاره‌های اسمی و صفتی فارسی جهت کمک به برچسب‌گذاری صحیح اجزای کلام

نویسنده

الهام علایی ابوذر

پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

10.35050/JIPM010.2019.061

چکیده

در تهیه سامانه‌های برچسب‌گذاری اجزای کلام در زبان فارسی، بررسی ساخت‌واژی اسم‌ها و صفت‌ها از دو نظر حائز اهمیت است: 1. اگر در یک پیکره متنی فارسی کلمه‌ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی‌توان برچسب‌های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می‌توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می‌شوند) یا بافتی که کلمه در آن ظاهر می‌شود، یا هر دو، حدس زد. 2. زبان فارسی ظرفیت بالایی برای ساخت هم‌نگاره‌های جدید که از ساخت‌واژه فارسی نشأت می‌گیرند، نیز دارد. بنابراین، بررسی ساخت‌واژی اسم‌ها و صفت‌ها، به‌منظور تفکیک آن‌ها از هم ضروری به نظر می‌رسد، زیرا اکثر صفت‌ها در بافت‌های گوناگون، با صورت نوشتاری یکسان می‌توانند برچسب «اسم» بگیرند. در تحقیق حاضر ساخت‌واژه اسم‌ها و صفت‌ها در فارسی بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی قرار گرفته تا از این رهگذر بتوان به شناسایی انواع هم‌نگاره‌ها در زبان فارسی پرداخت. سپس، انواع هم‌نگاره‌ها در زبان فارسی مورد مطالعه قرار گرفته و در نهایت، از طریق جست‌وجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم‌نگاره‌ها از پیکره‌های «پیکره متنی زبان فارسی»، «پایگاه دادگان زبان فارسی» و «پیکره وابستگی نحوی زبان فارسی» تهیه شده است. بررسی کلی هم‌نگاره‌ها در پیکره‌های مورد مطالعه نشان می‌دهد که بیشتر هم‌نگاره‌ها، فراوانی بالایی در پیکره‌های متنی فارسی دارند و اکثر آن‌ها در اثر یکسان بودن نمود نوشتاری تکواژ یای نکره، یای اسم‌ساز، شناسه دوم شخص مفرد، یای صفت‌ساز و یای متصل به گروه اسمی ایجاد شده‌اند.

کلیدواژه‌ها

سامانه برچسب‌گذاری اجزای کلام

ساخت‌واژه اسم‌ها و صفت‌های فارسی

نظام نوشتاری فارسی

هم‌نگاره‌ها

عنوان مقاله English

A Corpus-based study of Persian noun and adjective homographs to help right POS tagging

نویسنده English

Elham Alayiaboozar

چکیده English

: Present research studies morphological structure of nouns and adjectives. There are two main reasons for studying them in the process of making any POS tagger system for tagging nouns: 1. If the system faces an out of vocabulary word (OOV word), one way to identify its tag would be considering its morphological structure; 2. In Persian, lots of homographs are made due to Persian complex morphology. Studying morphological structure of nouns in order to distinguish them from adjectives seems to be necessary, since many adjectives, having the same orthographic forms of nouns, would be wrongly tagged as “noun” or vic e versa. After studying morphological structure of nouns and adjectives in present study, Persian writing system is studied. Then definition of homographs and the related classifications are presented. Finally, the study uses different famous Persian corpora (including Bijankhan, and syntactical dependency corpus (vabastegi ye nahvi) for searching for homographs (using search tools) and Data Center for Persian Language (Paygah e Dadegan) whose non-tagged file was available (the homographs are searched and tagged manually)) to make a list of homographs. The result of studying the mentioned list showed that the frequency of homographs, especially those which are made due to identical orthographic form of indefinite morpheme, adjective-maker morpheme and second person inflectional morpheme is high in Persian corpora which makes POS tagging difficult.

کلیدواژه‌ها English

POS tagger system

morphological structure of Persian nouns and adjectives

Persian writing system

Homographs