دسته‌بندی پیکره‌بنیاد هم‌نگاره‌های فارسی

نویسنده

پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران

چکیده

ابهام، یکی از چالش‌های بزرگ در پردازش زبان طبیعی است. در پردازش رایانه‌ای متون، هم‌نگاره‌ها و چگونگی رفع ابهام از آن‌ها از اهمیت بالایی برخوردار است. در زبان‌هایـی ماننـد زبـان فارسـی که سـاخت‌واژة پیچیـده‌ای دارنـد، هم‌نگاره‌هـای بســیاری ســاخته می‌شــوند. در این راستا شناخت هم‌نگاره‌ها و دسته‌بندی انواع آن‌ها بسیار مهم است. در پژوهش حاضر به‌منظور بررسی پیکره-بنیاد هم‌نگاره‌های فارسی، واژه‌هایی که بیش از یک برچسب اجزای واژگانی کلام داشتند، از پیکرة متنی فارسی استخراج شدند که شامل 10978 واژه است. سپس، فراوانی برچسب‌های هر هم‌نگاره مورد بررسی قرار گرفت و فهرست دیگری استخراج شد که شامل هم‌نگاره‌هایی است که افزون ‌بر فراوانی بالای برچسب اول آن‌ها (بیش از 20)، فراوانی برچسب‌ دوم آن‌ها نیز در پیکرة متنی فارسی بیش از 10 بوده است. این فهرست شامل 1675 هم‌نگاره است. ماهیت ساخت‌واژی، آوایی یا معنایی هم‌نگاره‌های استخراج‌شده در این مرحله مورد بررسی قرار گرفت و بر اساس آن، هم‌نگاره‌های استخراج‌شده در یازده دسته طبقه‌بندی شد که از میان آن‌ها، تنها هم‌نگاره‌های موجود در یک دسته بر اساس معیار معنایی طبقه‌بندی شده‌اند و بقیه بر اساس ویژگی‌های ساخت‌واژی و تفاوت‌های آوایی آن‌ها در دسته‌های گوناگون قرار گرفته‌اند. نتایج این پژوهش شامل فهرست گسترده‌ای از هم‌نگاره‌های فارسی استخراج‌شده از پیکرة متنی فارسی است که هر کدام بر اساس معیارهای ساخت‌واژی و آوایی در یک یا بیش از یک دسته از مجموع یازده دسته قرار گرفته‌اند. این فهرست و دسته‌بندی مربوط به هم‌نگاره‌ها می‌تواند در سیستم‌های رفع ابهام معنایی از واژگان مورد استفاده قرار گیرد

کلیدواژه‌ها


عنوان مقاله [English]

Corpus-based classification of Persian homographs

نویسنده [English]

  • Elham Alayiaboozar
چکیده [English]

One of the big challenges in natural language processing is ambiguity. Homographs and homograph sense disambiguation is highly important in computational processing of texts. In languages with complex morphology, there exists lots of homographs, which are worth studying and classifying. In present study, in order to study Persian homographs extracted from the corpus, first words with more than one POS tag were extracted from an annotated corpus, 10978 words. Then, the frequency of each POS tag pertaining to every homograph was studied and another list of homographs was extracted from the first one, which include homographs with high frequency of the first tag (more than 20) and considerable frequency of the second tag (more than 10); the mentioned list include 1675 homographs. Morphological, phonological as well as semantic structures of homographs were studied based on which all homographs were classified into 11 categories. From 11 categories only homographs in one category were chosen based on semantic criteria and the rest were classified based on morphological as well as phonological criteria. The output of the present study includes a big list of homographs extracted from Persian text corpus, each of which are categorized in one or more than one category based on morphological and phonological characteristics of homographs. Such list and the related categorization could be used in word sense disambiguation systems.

کلیدواژه‌ها [English]

  • Ambiguity
  • Homograph
  • POS Tag
  • Morphological Characteristics
خیرمند پاریزی، منیر، و رضا نورمندی‌پور. 1395. رفع ابهام معنایی کلمات فارسی با استفاده از روش یادگیری مبتنی ‌بر نمونه. اولین کنفرانس بین‌المللی دستاوردهای نوین پژوهشی در مهندسی برق و کامپیوتر. تهران.
دلجوان انوری، آزاده. 1397. رفع ابهام معنایی کلمات با استفاده از روش‌های مبتنی ‌بر گراف. پایان‌نامه کارشناسی ارشد. دانشگاه تحصیلات تکمیلی علوم پایه. گاوازنگ. زنجان.
شقاقی، ویدا. 1391. مبانی صرف. سازمان مطالعه و تدوین کتب علوم انسانی دانشگاه‌ها (سمت). مرکز تحقیق و توسعة علوم انسانی.
صادقی، علی‌اشرف 1371 الف. شیوه‌ها و امکانات واژه‌سازی در زبان فارسی معاصر (5). نشر دانش: 39-45.
_____. 1371ب. شیوه‌ها و امکانات واژه‌سازی در زبان فارسی معاصر (7). نشر دانش 72: ‌19-23.
_____. 1371ج. شیوه‌ها و امکانات واژه‌سازی در زبان فارسی معاصر (8). نشر دانش 74: 98-105.
_____. 1372الف. شیوه‌ها و امکانات واژه‌سازی در زبان فارسی معاصر (9). نشر دانش 75: 9-15.
_____. 1372ب. شیوه‌ها و امکانات واژه‌سازی در زبان فارسی معاصر (10). نشر دانش 76: 15-23.
علایی، الهام. 1397. معرفی رویکردی ماشینی با استفاده از الگوریتم لسک و برچسب‌دهی نحوی جهت رفع ابهام از معنی کلمات. پژوهشنامة پردازش و مدیریت اطلاعات 33 (3):‌ 1196-1179.
علی‌پوری حافظی، حامد، امیرسعید مولودی، و محمدکریم بیات. 1398. رفع ابهام معنایی از واژگان هم‌آوا-هم‌نویسه فارسی: رویکرد پیکره‌بنیاد. کنفرانس ملی بازیابی تعاملی اطلاعات. تهران.
لازار، ژیلبر 1389. دستور زبان فارسی معاصر. ترجمة مهستی بحرینی و توضیحات و حواشی هرمز میلانیان. 1389. انتشارات هرمس. چاپ دوم.
محســنی، مهــدی. 1387. سیســتم برچســب‌گذاری و ابهام‌زدایــی خــودکار اجــزای کلام بــرای پیکــره متنــی زبــان فارســی. تهــران: دانشــگاه علــم و صنعــت. دانشــکده مهندســی کامپیوتــر.
مسعودی، بابک، و سعید راحتی قوچانی. 1394. رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA. فصلنامة پردازش علائم و داده‌ها. 26 (4):‌ 117-125.
مظفری، زهرا، گیتی تاکی، مجتبی صباغ جعفری، و پاکزاد یوسفیان. 1397. سامانة رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالب‌های معنایی. پژوهش‌های زبانی 9 (1): 99-117.   
Alqahtani, Sawsan, Hanan Aldarmaki, & Mona Diab. 2019. Homograph disambiguation through selective diacritic restoration. Proceedings of the Fourth Arabic Natural Language Processing Workshop. Florence, Italy. Association for Computational Linguistics. 49-59.
Bakx, G. E. 2006. Machine learning techniques for Word Sense Disambiguation.: Universitat Politecnica de Catalunya. Barcelona.
Bijankhan, M., J. Sheykhzadegan, M. Bahrani, & M. Ghayoomi. 2011. Lessons from Building a Persian Written Corpus: Peykare. Language Resources and Evaluation 45 (2): 143–164.
Gaustad, T. 2004. Linguistic Knowledge and Word Sense Disambiguation. Netherland: University of Groningen.
Merriam-Webster Dictionary. https://www.merriam-webster.com/dictionary (accessed March 4, 2022)
Pal, Alok Ranjan., and Dganta Saha. 2015. Word sense disambiguation: a survey. International journal of control theory and computer modeling (IJCTCM) 5 (3): 1-16.
Twilley, Leslie, C. Peter Dixon, Dean Taylor, & Karen Clark. 1994. University of Alberta norms of relative meaning frequency for 566 homographs. Memory and cognition 22: 111-126.
Yarowsky, D. 1997. Homograph disambiguation in text-to-speech synthesis. Progress in speech synthesis.157-172. New York Springer.