معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی

علایی ابوذر, الهام; بی جن خان, محمود

doi:10.35050/JIPM010.2016.006

معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی

نویسندگان

الهام علایی ابوذر ¹

محمود بی جن خان ²

¹ پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

² دانشگاه تهران

10.35050/JIPM010.2016.006

چکیده

در نظامهای نوشتاری، رابطه یک-به-یک میان واجها و نگارهها همواره برقرار نیست. از آنجاییکه در نظام نوشتاری فارسی واکههای کوتاه اغلب فاقد صورت نوشتاری هستند، تعداد حالتهای ممکن خواندن کلمات خارج از واژگان افزایش مییابد و به این ترتیب عمق خط فارسی زیاد در نظر گرفته میشود. اما علیرغم وجود چنین ویژگیهایی در خط فارسی، فارسیزبانان هنگام خواندن کلمات فارسی موجود در واژگان ذهنی خود و کلماتی که برای اولین بار با آنها در متون گوناگون مواجه میشوند، قادرند رشته حروف را تبدیل به واج کنند. این پژوهش نشان میدهد فارسیزبانان با استفاده از روشی ساختاری-احتمالاتی، هنگام خواندن، رشته حروف را به رشته واجها تبدیل میکنند. منظور از بخش ساختاری روش، استفاده فارسیزبانان از اطلاعات زبانی از قبیل: ساختواژه فارسی، قواعد واژواجی فارسی و آشنایی با صورت نوشتاری و تلفظ کلماتی است که با الگوهای ساختواژی عربی مطابقت دارند. منظور از بخش احتمالاتی، در نظر گرفتن احتمال وقوع واکههای کوتاه با توجه به بافت نوشتاری است که این واقعیت میتواند فارغ از اطلاعات زبانی فارسیزبانان صورت پذیرد. در تحقیق حاضر مدلی ساختاری-احتمالاتی معرفی و عملکرد آن با نرمافزارهای تبدیل حرف به واج فارسی مقایسه شده است. به طور کلی این نتیجه به دست آمد که عملکرد مدل ساختاری-احتمالاتی پژوهش برای ارائه برونداد واجی کلمات خارج از واژگان، در مقایسه با نرمافزارهای تبدیل حرف به واج فارسی بهتر و به تلفظ فارسیزبانان نزدیکتر است.

کلیدواژه‌ها

کلمات خارج از واژگان

قواعد واژواجی

الگوهای ساختواژی عربی

مدل ساختاری-احتمالاتی

عنوان مقاله English

Introducing a probabilisticâstructural method for grapheme-to-phoneme conversion in Persian

نویسندگان English

Elham Alayiaboozar ¹

Mahmood Bijankhan ²

چکیده English

Persian writing system deviates from the ideal one due to the lack of one-to-one correspondence between graphemes and phonemes. The present study deals with this question that in spite of the absence of short vowels in Persian writing system and one-to-many and many-to-one relationships between the graphemes and phonemes, how can Persian speakers read out of vocabulary words? This study introduces a probabilistic- structural method that Persian speakers use to read out of vocabulary words in which structural information (including Persian morphology and morphophonemic rules) as well as Arabic morphological templates are considered. In order to test how the introduced method works, Persian speakers were asked to read a list of out of vocabulary words. The mentioned list was used by ID3 and MLP (two methods which are used in machine learning) as input, then the outputs of the method and those of ID3 and MLP were compared with Persian speakers` pronunciations the results proved that the introduced method functions similar to Persian speakers in reading out of vocabulary words.

کلیدواژه‌ها English

out of vocabulary words

probabilistic- structural method

morphophonemic rules

Arabic morphological templates