معرفی مدلی ساختاری-احتمالاتی برای تبدیل حرف به واج در متون فارسی

نویسندگان

1 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

2 دانشگاه تهران

چکیده

در نظام­های نوشتاری، رابطه یک-­به­-یک میان واج­ها و نگاره­ها همواره برقرار نیست. از آنجایی­که در نظام نوشتاری فارسی واکه­های کوتاه اغلب فاقد صورت نوشتاری هستند، تعداد حالت­های ممکن خواندن کلمات خارج از واژگان افزایش می­یابد و به این ترتیب عمق خط فارسی زیاد در نظر گرفته می­شود. اما علیرغم وجود چنین ویژگی­هایی در خط فارسی، فارسی­زبانان هنگام خواندن کلمات فارسی موجود در واژگان ذهنی خود و کلماتی که برای اولین بار با آن­ها در متون گوناگون مواجه می­شوند، قادرند رشته حروف را تبدیل به واج کنند. این پژوهش نشان می­دهد فارسی­زبانان با استفاده از روشی ساختاری-احتمالاتی، هنگام خواندن، رشته حروف را به رشته واج­ها تبدیل می­کنند. منظور از بخش ساختاری روش، استفاده فارسی­زبانان از اطلاعات زبانی از قبیل: ساختواژه فارسی، قواعد واژ­واجی فارسی و آشنایی با صورت نوشتاری و تلفظ کلماتی است که با الگوهای ساختواژی عربی مطابقت دارند. منظور از بخش احتمالاتی، در نظر گرفتن احتمال وقوع واکه­های کوتاه با توجه به بافت نوشتاری است که این واقعیت می­تواند فارغ از اطلاعات زبانی فارسی­زبانان صورت ­پذیرد. در تحقیق حاضر مدلی ساختاری-احتمالاتی معرفی و عملکرد آن با نرم­افزارهای تبدیل حرف به واج فارسی مقایسه شده است. به طور کلی این نتیجه به دست آمد که عملکرد مدل ساختاری-احتمالاتی پژوهش برای ارائه برونداد واجی کلمات خارج از واژگان، در مقایسه با نرم­افزارهای تبدیل حرف به واج فارسی بهتر و به تلفظ فارسی­زبانان نزدیک­تر است.

کلیدواژه‌ها


عنوان مقاله [English]

Introducing a probabilistic–structural method for grapheme-to-phoneme conversion in Persian

نویسندگان [English]

  • Elham Alayiaboozar 1
  • Mahmood Bijankhan 2
چکیده [English]

Persian writing system deviates from the ideal one due to the lack of one-to-one correspondence between graphemes and phonemes. The present study deals with this question that in spite of the absence of short vowels in Persian writing system and one-to-many and many-to-one relationships between the graphemes and phonemes, how can Persian speakers read out of vocabulary words? This study introduces a probabilistic- structural method that Persian speakers use to read out of vocabulary words in which structural information (including Persian morphology and morphophonemic rules) as well as Arabic morphological templates are considered. In order to test how the introduced method works, Persian speakers were asked to read a list of out of vocabulary words. The mentioned list was used by ID3 and MLP (two methods which are used in machine learning) as input, then the outputs of the method and those of ID3 and MLP were compared with Persian speakers` pronunciations the results proved that the introduced method functions similar to Persian speakers in reading out of vocabulary words.

کلیدواژه‌ها [English]

  • out of vocabulary words
  • probabilistic- structural method
  • morphophonemic rules
  • Arabic morphological templates