واکاوی تأثیر برچسب‌گذاری معنایی در ابهام‌زدایی هم‌نویسه‌های تخصصی از نظر کیفیت بازیابی (معیار F) در بازیابی متون علمی

نوع مقاله : مقاله پژوهشی

نویسنده

گروه علم اطلاعات و دانش‌شناسی ؛ دانشگاه الزهرا؛ تهران، ایران

چکیده

با توجه به نقش مهم و تعیین‌کننده واژگان تخصصی در مسیریابی دقیق و کامل پژوهش‌های علمی، هدف از پژوهش حاضر، تبیین میزان اثربخشی برچسب‌گذاری معنایی در رفع ابهام هم‌نویسه‌های تخصصی و کیفیت بازیابی حاصل از آن بود. این پژوهش از حیث هدف کاربردی و از حیث روش‌شناسی، از نوع کاربردشناسی تجربی یا پیکره‌ای است و روشی با نظارت محسوب می‌شود. از جمله فنون پردازش زبان طبیعی که برای دستیابی به هدف پژوهش به کار گرفته شد تحلیل ریخت‌شناسی و برچسب‌گذاری معنایی هم‌نویسه‌های تخصصی بود. جامعه پژوهش را 442 مقاله علمی در قالب دو گروه کنترل و آزمون تشکیل دادند. گروه کنترل دارای 221 متن کامل مقاله بدون برچسب و گروه تجربی دارای همان 221 مقاله اما این بار برچسب‌گذاریشده، بود که در نظام بازیابی اطلاعات برای تبیین اثربخشی برچسب‌گذاری معنایی در ابهام‌‌زدایی هم‌نویسه‌های تخصصی و کیفیت بازیابی متون علمی آزموده شدند. سطح معنی‌داری آزمون ویلکاکسون نشان داد که میزان کیفیت بازیابی نتایج بعد از به کارگیری پیکره تخصصی برچسب‌گذاری‌شده نسبت به قبل از آن تفاوت معنی‌داری دارد. بررسی رتبه‌های منفی و مثبت نشان داد این میزان به طور معنی‌داری افزایش یافته و به حد بیشینه آن یعنی 1 رسیده است. به عبارت دیگر در روش آزموده شده‌ی این پژوهش، فراخوانی و دقت که هر دو در تعیین میزان کیفیت بازیابی (معیار F) تأثیر دارند در حد بهینه آن یعنی 1 به دست آمد. از یافته‌های پژوهش حاضر چنین برمی‌آید که لزوما بین فراخوانی و دقت رابطه معکوس وجود ندارد و این دو می‌توانند به موازات یکدیگر به حد بیشینه خود برسند. کارایی بهتر نظام بازیابی با استفاده از این رویکرد، به دلیل تجهیز نظام بازیابی به برچسب‌های موضوعی و در نتیجه آن توانمندسازی این نظام به تمایز موضوعی هم‌نویسه‌های تخصصی است. تعبیه مجموعه آموزش در ساختار نظام بازیابی، اطلاعات افزوده‌ای را فراهم می‌کند تا در خدمت نظام بازیابی برای تمایز بین معانی متعدد هم‌نویسه‌های تخصصی قرار گیرد. این ابزار، یکی از عناصری است که کیفیت بهینه بازیابی را موجب می‌شود و نظام بازیابی اطلاعات را هنگام بازیابی متون حاوی هم‌نویسه‌های تخصصی از بازیابی واژه‌محور به سمت بازیابی محتوامحور سوق می‌دهد.

کلیدواژه‌ها


عنوان مقاله [English]

Investigating the Effectiveness of Semantic Tagging in Sense Disambiguation of Specialized Homographs from the perspective of F-Measure in Retrieving scientific texts

نویسنده [English]

  • Mina Rezaei Dinani
چکیده [English]

The aim of this study was to explain the application of text corpus tagging method in Sense disambiguation from specialized homographs and increasing the retrieval F-Measure of scientific texts containing such homographs.
This is an experimental study. Specialized homographs were identified by direct observation and morphological analysis of the word. The research sample consisted of 442 scientific articles of two groups of experimental group and control group. The control group had 221 full-text articles without tags and the experimental group had same 221 tagged articles, which were tested in the information retrieval system to measure the effectiveness of tagging in word sense disambiguation from specialized homographs.
The level of significance of the Wilcoxon signed-rank test showed that the F-Measure of retrieval results of specialized homographs after using the tagged specialized text corpus in the information retrieval system is significantly different than before. Examination of negative and positive rankings showed that the F-Measure of the results after using the tagged specialized text corpus has increased significantly and has reached its maximum level of 1.
The findings of the present study showed that there is not necessarily an inverse relationship between recall and precision, and the two can reach their maximum level of 1. The better efficiency of the retrieval system using this approach is due to the empowerment of the retrieval system in distinguishing between specialized homographs and identifying their semantic roles by using semantic tags as training data that were considered in the test and training set. Embedding the training set in the structure of the retrieval system provides additional information to serve the retrieval system to distinguish between the various meanings of specialized homographs. This tool is one of the elements that causes the optimal quality of retrieval and leads the information retrieval system from word-driven retrieval to content-driven retrieval when retrieving texts containing specialized homographs.

کلیدواژه‌ها [English]

  • specialized homograph
  • information retrieval
  • tagging
  • text corpus
  • F-Measure
اکبری، اسماعیل، ملوک‌السادات حسینی بهشتی، و مهرداد نوروزی ‌اقبالی. 1384. اص‍طلاح‌ن‍ام‍ه‌ ع‍ل‍وم‌ زی‍س‍ت‍ی‌. ت‍ه‍ران‌: م‍رک‍ز اطلاع‍ات‌ و م‍دارک‌ ع‍ل‍م‍ی‌ ای‍ران‌.
انبایی ‌فریمانی، سعیده، حمید طباطبایی، و مجتبی کفاشان‌کاخکی. 1398. جستاری بر فرایند سازماندهی و بازیابی متون وبی مبتنی ‌بر تجمیع مفاهیم معنایی در راستای سازماندهی دانش. پژوهشنامه پردازش و مدیریت اطلاعات ۳۴ (۴): ۱۸۷۹-۱۹۰۴.
ایران‌نژاد پاریزی، مهدی.1390. روش‌های تحقیق در علوم اجتماعی. تهران: مدیران.
ب‍وث‌، ب‍ارب‍ارا، و م‍ی‍ش‍ل ب‍ل‍ر. 1992. اص‍طلاح‌ن‍ام‍ه‌ ج‍ام‍ع‍ه‌ش‍ن‍اس‍ی‌. ترجمه مهوش معترف،۱۳۸۲. تهران: م‍رک‍ز اطلاع‍ات‌ و م‍دارک‌ ع‍ل‍م‍ی‌ ای‍ران‌.
جلالی، وحید. 1387. بازیابی معنایی اطلاعات با استفاده از بسط مفاهیم حاصل از جست‌وجوی مبتنی بر کلیدواژه. پایان‌نامة کارشناسی ارشد. دانشکدة مهندسی کامپیوتر و فناوری اطلاعات. دانشگاه صنعتی امیرکبیر.
حریری، نجلا، فهیمه باب‌الحوائجی، مهرداد فرزندی‌پور، و سمیه نادی راوندی. 1393. معیارهای ارزیابی ربط در نظام‌های بازیابی اطلاعات: دانسته‌ها و ندانسته‌ها. پردازش و مدیریت اطلاعات 30 (1): 199-221.
حسینی‌بهشتی، ملوک‌السادات. 1382. کاربرد اصطلاح‌شناسی و واژه‌گزینی در نمایه‌سازی ماشینی و بازیابی اطلاعات. علوم اطلاع‌رسانی 18 (3): 31-44.
_____. 1393. ساختواژه: اصطلاح‌شناسی و مهندسی دانش. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران؛ چاپار. 
_____، سعیده وفایی، و مهرداد نوروزی ‌اقبالی. ۱۳۹۳. اصطلاح‌نامه ریاضیات. تهران: ‏‫پژوهشگاه علوم و فناوری اطلاعات ایران.
خیرمند پاریزی، منیر، و رضا نورمندی‌پور. 1395. رفع ابهام معنایی کلمات فارسی با استفاده از رویکرد نظارت‌شده الگوریتم‌های IBL‌. علوم رایانشی 1 (2): 63.
ذوالفقارکندری، زهره‌، طیبه میانگاه، بلقیس روشن، و امیررضا وکیلی‌فرد. 1399. بررسی تکنیک‌های بهبود عملکرد روش‌های بسامدشماری پیکره‌بنیاد در استخراج خودکار واژگان (مورد مطالعه: واژگان پایه علوم پزشکی). پژوهشنامه پردازش و مدیریت اطلاعات ۳۵ (۴): ۱۰۳۹-۱۰۶۴.
رجبی، تقی، غریبی، حسین، حسینی ‌بهشتی، ملوک‌السادات، و مهرداد نوروزی‌اقبالی. ۱۳۸۳. اص‍طلاح‌ن‍ام‍ه‌ ش‍ی‍م‍ی‌. ت‍ه‍ران‌: م‍رک‍ز اطلاع‍ات‌ و م‍دارک‌ ع‍ل‍م‍ی‌ ای‍ران‌.
ستوده، هاجر، و مژگان هوشیار. 1397. بررسی نقش انواع بافتار هم‌نویسه‌ها در تعیین شباهت بین مدارک. پژوهشنامه پردازش و مدیریت اطلاعات 33 (3): 1183-1206.
سلطانی، محمود، و هشام فیلی. 1387. استفاده از تکنیک ابهام‌زدایی معنایی واژگان در بازیابی بین زبانی اطلاعات. چهاردهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، انجمن کامپیوتر ایران. تهران، دانشگاه صنعتی امیرکبیر.
صدقی، فاطمه. 1392. رفع ابهام از هم‌نویسه‌ها در متون فارسی با روش‌های نیمه نظارتی. پایان‌نامة کارشناسی ارشد. گروه مهندسی کامپیوتر- هوش مصنوعی. دانشکده فنی-مهندسی. دانشگاه الزهرا.
صدیقی، مهری، حسینی بهشتی، ملوک‌السادات، و مهرداد نوروزی ‌اقبالی. 1384. اص‍طلاح‌ن‍ام‍ه علوم زمین. ۲ ج. ت‍ه‍ران‌: م‍رک‍ز اطلاع‍ات‌ و م‍دارک‌ ع‍ل‍م‍ی‌ ای‍ران‌.
عرب، میثم. 1394. استفاده از روابط پنهان بین کلمات در رفع ابهام معنایی کلمات. پایان‌نامه کارشناسی ارشد. گروه مهندسی کامپیوتر. واحد بین‌الملل دانشکده فنی- مهندسی. دانشگاه شیراز.
علایی ابوذر، الهام. 1397. معرفی رویکردی ماشینی با استفاده از الگوریتم لسک و برچسب‌دهی نحوی جهت رفع ابهام از معنای کلمات. پژوهشنامه پردازش و مدیریت اطلاعات (33) 3: 1165-1182.
علی‌پوری حافظی، حامد، امیرسعید مولودی، و محمدکریم بیات. 1398. رفع ابهام معنایی از واژگان هم‌آوا – هم‌نویسه فارسی: رویکرد پیکره‌بنیاد. دومین کنفرانس بازیابی تعاملی اطلاعات. تهران.
غفارثمر، رضا، محسن شیرازی‌زاده، و غلامرضا کیانی. 1394. بسترها، چشم‌اندازها، کاربردها وچالش‌های مطالعه واژگان در متون دانشگاهی: ضرورت توجه بیشتر به زبان فارسی و زبان‌آموزان فارسی زبان. جستارهای زبانی 6 (4): 153-181.
قدس‌نیا پدرام، زارع‌بیدکی، علی‌محمد، و ناصر یزدانی. 1386. بررسی آماری تاثیر برخی از مشکلات زبان فارسی بر جامعیت نتایج جست‌وجو در موتورهای جست‌وجو. کنفرانس ملی سالانه انجمن کامپیوتر ایران، انجمن کامپیوتر ایران، دانشگاه صنعتی شریف.
کریمی، المیرا، محمود بابایی، و ملوک‌السادات حسینی بهشتی. 1398. بررسی ویژگی‌های معنایی و هستی‌شناسانه نظام‌های بازیابی اطلاعات مبتنی ‌بر اصطلاحنامه و هستی‌شناسی. پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات)، 34 (4‌): 1585-1612.
کفاشان، مجتبی، و رحمت‌الله فتاحی.1390. نظام‌های نوین سازماندهی دانش: وب معنایی، هستی‌شناسی و ابزارهای سازماندهی دانش عینی. کتابداری و اطلاع‌رسانی 14 (2): 45-70.
مرتضایی، لیلا. 1381. مسائل زبان و خط فارسی در ذخیره‌سازی و بازیابی اطلاعات. فصلنامه اطلاع‌رسانی 17 (1-2): 1-7.
مسعودی، بابک، و سعید راحتی قوچانی. 1394. رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA. پردازش علائم و داده‌ها 4 (26): 117-125.
مظفری، زهرا، تاکی، گیتی، صباغ جعفری، مجتبی، و پاکزاد یوسفیان. 1397. سامانه رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالب‌های معنایی. پژوهش‌های زبانی، 9 (1)، 99-117.
معروفی، افسانه، و عبدالحمید پیله‌ور. 1390. رفع ابهام از معنی کلمه مبهم فارسی با استفاده از روش‌ها مبتنی ‌بر پیکره و قاموس. اولین همایش منطقه‌ای رویکردهای نوین در مهندسی کامپیوتر و فناوری اطلاعات. رودسر، دانشگاه آزاد اسلامی.
منصوریان، یزدان. 1382. مروری بر پژوهش‌های کاربرمدار در مطالعات بازیابی اطلاعات مبتنی ‌بر وب. کتابداری و اطلاع‌رسانی 3 (6): 1-22.
نوروزی اقبالی، مریم، ملوک‌السادات حسینی بهشتی، و مهرداد نوروزی ‌اقبالی. ۱۳۸۵. اص‍طلاح‌ن‍ام‍ه ف‍ی‍زی‍ک.‌ ت‍ه‍ران‌: پژوهشگاه اطلاع‍ات‌ و م‍دارک‌ ع‍ل‍م‍ی‌ ای‍ران‌.
 
Barba, Edoardo, Luigi Procopio, Niccol Campolungo, Tommaso Pasini, & Roberto Navigli. 2020. MuLaNMultilingual Label propagatioN for Word Sense Disambiguation. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence (IJCAI-20), Science. Sapienza University of Rome, Italy. 3837-3844.
Chan, Yee Seng, & Hwee Tou Ng. 2007. Domain Adaptation with Active Learning for Word Sense Disambiguation. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic, 49-56.
Fangzhou Liu., Qin Shi, & Jianhua Tao. 2008. Tree-guided transformation-based homograph disambiguation in Mandarin TTS system. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. Las Vegas, NV, USA. 4657-4660.
Gale, Kenneth W., William A. Church, & David Yarowsky. 1992. A Method for Disambiguating Word Senses in a Large Corpus. Computer and the Humanities 26 (5-6): 415-439.
Hearst, Marti A. 1991. Noun homograph disambiguation using local context in large text corpora. Proceedings of the 7st Annual conference of the University of Waterloo Centre for the new OED and text research. Berkeley, Ca. USA. 185-188.
Hjørland, Birger. 2021. Information Retrieval and Knowledge Organization: A Perspective from the Philosophy of Science. Information 12 (3): 135. https://doi.org/10.3390/info12030135
Hjørland, Birger. 2013. Theories of knowledge organization—theories of knowledge: Keynote, 13th Meeting of the German ISKO in Potsdam. Knowledge Organization 40 (3): 169-181. DOI: 10.5771/0943-7444-2013-3-169
Jurafsky, Danial & James H. Martin. 2020. Speech and Language Processing; An Introduction to Natural Language Processing. Computational Linguistics, and Speech Recognition. 3rd ed. Prentice Hall Series in Artificial Intelligence). Upper Saddle River, New Jersey: Pearson Education.
Karimpour, Reza et al. 2008. Using Part of Speech Tagging in Persian Information Retrieval. Available at: http://ceur-ws.org/Vol-1174/CLEF2008wn-adhoc-KarimpourEt2008.pdf (accessed Dec. 29, 2020)
Kessler, Wiltrud. 2012. Evaluation of Text Classification. Available at: http://www.ims.unistuttgart.de/institut/mitarbeiter/kesslewd/lehre/sentimentanalysis12s/ml_evaluation.pdf. (accessed March 20, 2020)
Kumar, Sawan, Jat Sharmistha, Saxena Karan, & Partha Talukdar. 2019. Zero-shot word sense disambiguation using sense definition embedding. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL). Florence, Italy. 5670–5681.
Menai, Mohamed El Bachir. 2014. Word sense disambiguation using an evolutionary approach. Informatica 38 (3): 155-169.
Pretschner, Alexander, & Susan Gauch. 1999. Ontology based personalized search. In Proceedings of the 11th IEEE, International Conference on Tools with Artificial Intelligence. Chicago, IL, USA.
Prokofyev, Roma., Demartini Gianluc., Boyarsky Alexey, Ruchayskiy, Oleg, & Philippe Cudré-Mauroux. 2013. Ontology-based word sense disambiguation for scientific literature. Advances in information retrieval: 35th European conference on IR research, ECIR. Berlin, Germany: Springer. 594-605.
Rahman, Nazreena, & Bhogeswar Borah. 2021. An unsupervised method for word sense disambiguation. Journal of King Saud University, Computer and Information Sciences. doi:10.1016/j.jksuci.2021.07.022
Rijsbergen, C. J. Van. 1974. Foundation of Evaluation. Journal of Documentation 3 (4): 365-373. Doi.org/10.1108/eb026584
Saeed, Ali, Nawab Rao Muhammad Adeel, Mark Stevenson, & Paul Rayson. 2019. A Sense Annotated Corpus for All-Words Urdu Word Sense Disambiguation. ACMTrans. Asian Low-Resour. Lang. 18 (4): 1-14. https://doi.org/10.1145/3314940
Sanderson, Mark. 2010. Test Collection Based Evaluation of Information Retrieval Systems .Foundations and Trends ®in Information Retrieval 4 (4): 247-375. Available at: http://www.nowpublishers.com/articles/foundations-and-trends-in-informationretrieval/ INR-009. (accessed March 20, 2020)
Sasaki, Yutaka. 2007. The Truth of the F-measure. Teach Tutor Mater. Available at: http://www.cs.odu.edu/~mukka/cs795sum09dm/Lecturenotes/Day3/F-measure-YS- 26Oct07.pdf (accessed March 20, 2020)
Schutze, Hinrich. 2014. Introduction to Information Retrieval: Relevance Feedback and Query Expansion. Retrieved from http://www.cis.uni-muenchen.de/~hs/teach/13s/ir/pdf/09expand.pdf (accessed March 20, 2020)
 Shen, Binbin., Zhiyong Wu, Yongxin Wang&  Lianhong Cai,. 2011. Combining Active and Semi-Supervised Learning for Homograph Disambiguation in Mandarin Text-to-Speech Synthesis. 12th Annual Conference of the International Speech Communication Association. Florence, Italy, 27-31.
Tesprasit, Virongrong., Paisarn Charoenpornsawat, & Virach Sornlertlamvanich. 2003. A contextsensitive homograph disambiguation in Thai text-to-speech synthesis. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Pathumthani, Thailand, 2,103-105. DOI: 10.3115/1073483.1073518
Voorhiees, Ellen M., and Donna Harman. 2001. Overwiev of TREC 2001. Paper Presented At 10th Text Retrieval Conference (TREC 2001). Gaithersburg, Maryland NIST Special Publication 15 (1): 500-250. Retrieved from http://trec.nist.gov/pubs/trec10/papers/overview_10.pd (accessed March 20, 2020)