تحلیل‌گر تصریفی فارسی معاصر

نویسندگان

1 کارشناسی ارشد زبان‌شناسی رایانشی؛ دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛

2 گروه زبان‌شناسی؛ دانشگاه تهران؛ تهران، ایران

3 دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛

چکیده

در سال‌های اخیر، کاربرد گونه نوشتاری غیررسمی زبان فارسی به‌دلیل گسترش روزافزون فضای مجازی و شبکه‌های اجتماعی و تمایل کاربران به نزدیک کردن زبان نوشتار به گفتار رشد چشمگیری داشته‌ است. با وجود این، ابزارهای پردازش این گونه زبانی به‌میزان لازم توسعه داده نشده است. تحلیلگرهای تصریفی از جمله ابزارهایی است که در پردازش زبانی کاربرد وسیعی دارد و تاکنون برای گونه غیررسمی طراحی و پیاده‌سازی نشده است. با توجه به این‌که گونه نوشتاری غیررسمی در کنار واژگان و قواعد صرفی و نحوی مختص ‌به‌خود، در بخشی از واژه‌ها و ساختارها با گونه رسمی مشترک است، در این پژوهش با پوشش فارسی رسمی و غیررسمی اولین ابزار تحلیل تصریفی فارسی معاصر برای همه اقسام واژه توسعه داده شده و تلاش شده همه ساختارهای تصریفی واژه‌های فارسی غیررسمی پوشش داده شود. این ابزار به‌صورت قاعده‌مند و مستقل از بافت و با بهره‌گیری از مبدل حالت محدود، پی‌بست‌ها و وندهای تصریفی رسمی و غیر‌رسمی را در واژه‌های زبان شناسایی و تحلیل کرده، ستاک‌های رسمی و غیررسمی را نیز استخراج می‌کند. به‌منظور پوشش دادن تمام ساخت‌ها و حالت‌های تصریفی، با توجه به رویکرد مستقل از بافت، الگوریتم برای هر واژه، تمام خوانش‌ها و معانی گوناگونی را که می‌تواند بسته به قرارگیری در بافت‌های گوناگون داشته‌ باشد، تحلیل و ارائه می‌کند. به‌منظور استخراج و بررسی واژگان و قواعد تصریفی و نگارشی گونه غیر رسمی، پیکره فارسی معاصر از سیاق‌ها و زیرسیاق‌های گوناگون این گونه زبانی تهیه شده و در طراحی و آزمون تحلیلگر مورد استفاده قرار گرفت. آزمون تحلیلگر با استفاده از ۱۷۸۶ واژه یکتای استخراج‌شده از پیکره، نتیجه ۹۶/۶۷ درصد را در معیار اف به‌دست داده است. از این ابزار می‌توان در انواع تحلیل‌ها و کاربردهای پردازش رایانه‌ای زبان فارسی و همچنین در آموزش فارسی، به‌ویژه محاوره فارسی به غیر فارسی‌زبانان استفاده کرد.

کلیدواژه‌ها


عنوان مقاله [English]

Contemporary Persian Inflectional Analyzer

نویسندگان [English]

  • Davood Heidarpour 1
  • Elham S.Sebt 1
  • Mahmoud Bi Jen Khan 2
  • Mostafa Salehi 3
  • Hadi Veisi 3
چکیده [English]

In recent years, the use of informal writing in Persian has grown significantly due to the increasing expansion of cyberspace and social media and platforms, and the tendency of users to bring the written language closer to colloquial speech. But on the other hand, proper tools to process this language register are not developed very much. One of the tools for low level processing of textual data is an inflectional analyzer. However, such tools are not developed for this register yet. Informal words have their own structures, stems, morphemes and clitics and they also make use of formal structures and units. Moreover, this register also consists of formal words so any analyzer for informal words should have the potential to analyze formal words, too. In this paper, it is tried to cover all inflectional structures of informal Persian language to build an inflectional analyzer. A corpus of most of its known sub-registers is constructed to extract words, morphemes and inflectional rules and morphotactics. A part of this corpus is used for testing the analyzer. After extracting 1786 unique words of the test part, inflectional analyzer f-measure is equal to 97.67%. This tool can be used in computational processing of Persian language and it can also be used in teaching Persian, specifically colloquial Persian to non-Persian learners.

کلیدواژه‌ها [English]

  • Computational Linguistics
  • Inflectional Analyzer
  • Informal Persian Register
  • Contemporary Persian
  • FST
  • Persian Teaching
  1. اسلامی، محرم، مسعود آتشگاه، صدیقه علی‌زاده لمجیری، و طاهره زندی. 1383. واژگان زایای زبان فارسی. اولین کارگاه پژوهشی زبان فارسی و رایانه. تهران.
  2. اسلامی، محرم، مسعود آتشگاه، صدیقه علی‌زاده لمجیری، و طاهره زندی. 1383. واژگان زایای زبان فارسی. اولین کارگاه پژوهشی زبان فارسی و رایانه. تهران.
  3. اسلامی، محرم، و صدیقه علی‌زاده لجمیری. 1388. ساختار تصریفی کلمه در زبان فارسی. زبان و ادب فارسی. نشریه دانشکده ادبیات و علوم انسانی دانشگاه تبریز ۲۱۱: ۱-۱۸.
  4. اسلامی، محرم، و صدیقه علی‌زاده لجمیری. 1388. ساختار تصریفی کلمه در زبان فارسی. زبان و ادب فارسی. نشریه دانشکده ادبیات و علوم انسانی دانشگاه تبریز ۲۱۱: ۱-۱۸.
  5. انوری، حسن، و حسن گیوی. 1391. دستور زبان فارسی. ویرایش چهارم. تهران: انتشارات فاطمی.
  6. انوری، حسن، و حسن گیوی. 1391. دستور زبان فارسی. ویرایش چهارم. تهران: انتشارات فاطمی.
  7. بی‌جن‌خان، محمود. 1386. پیاده‌سازی استاندارد ایگلز در پیکره متنی زبان فارسی معاصر. مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان. تهران: دبیرخانه شورای عالی اطلاع‌رسانی.
  8. بی‌جن‌خان، محمود. 1386. پیاده‌سازی استاندارد ایگلز در پیکره متنی زبان فارسی معاصر. مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان. تهران: دبیرخانه شورای عالی اطلاع‌رسانی.
  9. تازه‌جانی، سمیه، و محمد بحرانی. 1392. بررسی روند تغییرات در تبدیل فرم رسمی افعال به فرم محاوره‌ای و ارائه یک تحلیلگر صرفی برای افعال محاوره‌ای. اولین هم‌اندیشی زبان فارسی و اینترنت. تهران.
  10. تازه‌جانی، سمیه، و محمد بحرانی. 1392. بررسی روند تغییرات در تبدیل فرم رسمی افعال به فرم محاوره‌ای و ارائه یک تحلیلگر صرفی برای افعال محاوره‌ای. اولین هم‌اندیشی زبان فارسی و اینترنت. تهران.
  11. حیدرپور، داود، مصطفی مصالحی، محمود بی‌جن‌خان، هادی ویسی، و وحید رنجبر. 1398. شناسایی و پوشش واحدهای خارج از واژگان در فارسی غیررسمی. پنجمین همایش ملی زبان‌شناسی رایانشی. انجمن زبان‌شناسی ایران، تهران.
  12. حیدرپور، داود، مصطفی مصالحی، محمود بی‌جن‌خان، هادی ویسی، و وحید رنجبر. 1398. شناسایی و پوشش واحدهای خارج از واژگان در فارسی غیررسمی. پنجمین همایش ملی زبان‌شناسی رایانشی. انجمن زبان‌شناسی ایران، تهران.
  13. شقاقی، ویدا. 1394. وندِ گروهی. زبان و زبان‌شناسی. مجله انجمن زبان‌شناسی ایران، پژوهشگاه علوم انسانی و مطالعات فرهنگی 9 (17): 1-26.
  14. شقاقی، ویدا. 1394. وندِ گروهی. زبان و زبان‌شناسی. مجله انجمن زبان‌شناسی ایران، پژوهشگاه علوم انسانی و مطالعات فرهنگی 9 (17): 1-26.
  15. صادقی، علی‌اشرف، و زهرا زندی‌مقدم. 1385. فرهنگ املایی زبان فارسی. تهران: فرهنگستان زبان و ادب فارسی.
  16. صادقی، علی‌اشرف، و زهرا زندی‌مقدم. 1385. فرهنگ املایی زبان فارسی. تهران: فرهنگستان زبان و ادب فارسی.
  17. طبیب‌زاده، امید. 1398. مبانی و دستور خط فارسی شکسته. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
  18. طبیب‌زاده، امید. 1398. مبانی و دستور خط فارسی شکسته. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
  19. کاشفی، امید، میترا نصری، و کامیار کنعانی. 1389. خطایابی املایی خودکار در زبان فارسی. تهران: دبیرخانه شورای عالی اطلاع‌رسانی.
  20. کاشفی، امید، میترا نصری، و کامیار کنعانی. 1389. خطایابی املایی خودکار در زبان فارسی. تهران: دبیرخانه شورای عالی اطلاع‌رسانی.
  21. مواجی، وحید، محرم اسلامی، و بهرام وزیرنژاد. 1390. پارس مورف: تحلیلگر صرفی زبان فارسی. پردازش علائم و داده‌ها 8 (1): 3-8.
  22. مواجی، وحید، محرم اسلامی، و بهرام وزیرنژاد. 1390. پارس مورف: تحلیلگر صرفی زبان فارسی. پردازش علائم و داده‌ها 8 (1): 3-8.
  23. Alshargi, Faisal, and Owen Rambow. 2016. Morphologically Annotated Corpora and Morphological Analyzers for Moroccan and Sanaani Yemeni Arabic. In 10th Language Resources and Evaluation Conference (LREC 2016). Portoroz.
  24. Alshargi, Faisal, and Owen Rambow. 2016. Morphologically Annotated Corpora and Morphological Analyzers for Moroccan and Sanaani Yemeni Arabic. In 10th Language Resources and Evaluation Conference (LREC 2016). Portoroz.
  25. Badawi, El Said, Michael Carter, and Adrian Gully. 2013. Modern Written Arabic: A Comprehensive Grammar. London: Routledge. [DOI:10.4324/9780203351758]
  26. Badawi, El Said, Michael Carter, and Adrian Gully. 2013. Modern Written Arabic: A Comprehensive Grammar. London: Routledge. [DOI:10.4324/9780203351758]
  27. Biber, Douglas. 1993a. Representativeness in Corpus Design. Literary and Linguistic Computing 8 (4): 57-243. [DOI:10.1093/llc/8.4.243]
  28. Biber, Douglas. 1993a. Representativeness in Corpus Design. Literary and Linguistic Computing 8 (4): 57-243. [DOI:10.1093/llc/8.4.243]
  29. Biber, Douglas. 1993b. Using Register-Diversified Corpora for General Language Studies. Computational Linguistics 19 (2): 41-219.
  30. Biber, Douglas. 1993b. Using Register-Diversified Corpora for General Language Studies. Computational Linguistics 19 (2): 41-219.
  31. Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, and Masood Ghayoomi. 2011. Lessons from building a Persian written corpus: Peykare. Language Resources and Evaluation 45 (2): 143-164. [DOI:10.1007/s10579-010-9132-x]
  32. Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, and Masood Ghayoomi. 2011. Lessons from building a Persian written corpus: Peykare. Language Resources and Evaluation 45 (2): 143-164. [DOI:10.1007/s10579-010-9132-x]
  33. Ferguson, Charles A. 1959. Diglossia. Word 15 (2): 325-340. [DOI:10.1080/00437956.1959.11659702]
  34. Ferguson, Charles A. 1959. Diglossia. Word 15 (2): 325-340. [DOI:10.1080/00437956.1959.11659702]
  35. Hulden, Mans. 2009. Foma: A Finite-State Compiler and Library. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics: Demonstrations Session: 29-32. Association for Computational Linguistics. Athens. [DOI:10.3115/1609049.1609057]
  36. Hulden, Mans. 2009. Foma: A Finite-State Compiler and Library. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics: Demonstrations Session: 29-32. Association for Computational Linguistics. Athens. [DOI:10.3115/1609049.1609057]
  37. Jurafsky, Daniel, and James H Martin. 2008. Speech and Language Processing. 2nd Edition. New Jersey: Prentice-Hall.
  38. Jurafsky, Daniel, and James H Martin. 2008. Speech and Language Processing. 2nd Edition. New Jersey: Prentice-Hall.
  39. Lazard, G. 1992. A grammar of contemporary Persian. Costa Mesa, CA: Mazda Publishers.
  40. Lazard, G. 1992. A grammar of contemporary Persian. Costa Mesa, CA: Mazda Publishers.
  41. McEnery, Tony, and Andrew Hardie. 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. [DOI:10.1017/CBO9780511981395]
  42. McEnery, Tony, and Andrew Hardie. 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. [DOI:10.1017/CBO9780511981395]
  43. Megerdoomian, Karine. 2008. Analysis of Farsi Weblogs. Washington DC: MITRE Corporation,.
  44. Megerdoomian, Karine. 2008. Analysis of Farsi Weblogs. Washington DC: MITRE Corporation,.
  45. _____. 2000. Persian Computational Morphology: A Unification-Based Approach. New Mexico: Computing Research Laboratory, New Mexico State University.
  46. _____. 2000. Persian Computational Morphology: A Unification-Based Approach. New Mexico: Computing Research Laboratory, New Mexico State University.
  47. Ryding, Karin C. 2005. A Reference Grammar of Modern Standard Arabic. Cambridge: Cambridge university press. [DOI:10.1017/CBO9780511486975]
  48. Ryding, Karin C. 2005. A Reference Grammar of Modern Standard Arabic. Cambridge: Cambridge university press. [DOI:10.1017/CBO9780511486975]
  49. Sagot, Benoit, and Geraldine Walther. 2010. A morphological lexion for the Persian language. In Proceedings of the 7th Language Resources and Evaluation Conference (LREC'10). Malta.
  50. Sagot, Benoit, and Geraldine Walther. 2010. A morphological lexion for the Persian language. In Proceedings of the 7th Language Resources and Evaluation Conference (LREC'10). Malta.
  51. Shamsfard, M., H. S. Jafari, and M. Ilbeygi. 2010. STeP-1: A Set of Fundamental Tools for Persian Text Processing. In LREC 2010-8th Language Resources and Evaluation Conference. Malta.
  52. Shamsfard, M., H. S. Jafari, and M. Ilbeygi. 2010. STeP-1: A Set of Fundamental Tools for Persian Text Processing. In LREC 2010-8th Language Resources and Evaluation Conference. Malta.
  53. Torjmen, R. and K. Haddar. 2018. Morphological analyzer for the Tunisian dialect. In International Conference on Text, Speech, and Dialogue (pp. 180-187). Springer, Cham. Czech Republic. [DOI:10.1007/978-3-030-00794-2_19]
  54. Torjmen, R. and K. Haddar. 2018. Morphological analyzer for the Tunisian dialect. In International Conference on Text, Speech, and Dialogue (pp. 180-187). Springer, Cham. Czech Republic. [DOI:10.1007/978-3-030-00794-2_19]