بررسی نقش انواع بافتار هم‌نویسه‌ها در تعیین شباهت بین مدارک

نویسندگان

دانشگاه شیراز

چکیده

رفع ابهام معنایی واژگان در بازیابی خودکار اطلاعات از چالش‌های بزرگ این حوزه است. متن در خود عناصری محتوایی یا ساختاری دارد که با شناسایی و تحلیل آن‌ها و استخراج الگوهای متفاوت می‌توان به رفع ابهام معنایی و در نتیجه، افزایش اثربخشی نتایج بازیابی دست یافت. هم‌نویسه‌ها از جمله واژگانی هستند که به رفع ابهام معنایی نیاز دارند. نشان داده شده است که بافتار هم‌نویسه می‌تواند به بهبود بازیابی آن کمک کند. بافتار هم‌نویسه خود می‌تواند بسته به نقش و جایگاه آن در متن به انواعی تقسیم شود که ممکن است هر یک در تعیین شباهت بین مدارک از قدرت متفاوتی برخوردار باشد. هدف اصلی از این پژوهش، مقایسه پنج نوع بافتار متنی (شامل بافتار استناد متنی، ارجاع، عنوان ارجاع، عنوان و متن مقاله) به ‌لحاظ قدرت آن‌ها در تعیین شباهت میان مدارک است.
به‌ کمک روش تحلیل متن، مجموعه‌ای آزمایشی از مدارک پیرامون هم‌نویسه‌های انگلیسی مشتمل بر 3637 مقاله منتشرشده در بازه زمانی 2000-2015 پیرامون 19 هم‌نویسه در 54 گروه موضوعی مورد بررسی قرار گرفت. برای تعیین شباهت درون خوشه‌ها از روش آماری تحلیل تشخیصی استفاده شده است.
نتایج تحلیل تشخیصی نشان داد که در درون خوشه‌های معنایی، زیرخوشه‌هایی با تمایز بسیار اندک قابل مشاهده است. دو بافتار استناد متنی و ارجاع کمترین نقش را در ایجاد تمایز و در نتیجه، بیشترین شباهت را در درون خوشه‌ها داشته‌اند.
نتایج به‌دست‌آمده نشان داد که هم‌معنا بودن هم‌نویسه‌ها به ایجاد خوشه‌هایی از مدارک منجر می‌شود که در درون آن‌ها مدارک با هم به ‌لحاظ انواع بافتار هم‌نویسه‌ای تفاوت چندانی با هم ندارند. همچنین،انواع بافتار از قدرت برابری در تعیین تشابه بین مدارک برخوردار نیستند. دو بافتار استناد متنی و ارجاع در تعیین شباهت معنایی در درون خوشه‌های معنایی بیشترین قوت را داشته‌اند. از این دو نوع بافتار که قوت بیشتری در ایجاد شباهت داشته‌اند، می‌توان برای بهبود نتایج بازیابی کمک گرفت. الگوریتم‌های بازیابی در موتورهای جست‌وجو و پایگاه‌های اطلاعاتی می‌توانند برای سنجش دقیق‌تر شباهت بین مدارک حاوی هم‌نویسه‌ها از تحلیل این دو نوع بافتار استفاده کنند.
اثر حاضر نخستین پژوهشی است که به تعریف انواع گوناگونی از بافتارهای متنی و مقایسه آن‌ها به‌منظور تعیین قدرت آن‌ها در سنجش شباهت مدارک حاوی هم‌نویسه‌های هم‌معنا می‌پردازد.

کلیدواژه‌ها


عنوان مقاله [English]

The role of different types of homograph contexts in measuring documents similarities

نویسندگان [English]

  • Hajar Sotudeh
  • Mojgan Houshyar
چکیده [English]

Aim: Automatic information retrieval is based on the assumption that texts contain content or structural elements that can be used in word sense disambiguation and thereby improving the effectiveness of the results retrieved. Homographs are among the words requiring sense disambiguation. Depending on their roles and positions in texts, homograph contexts could be divided to different types, with probably different potency in determination of similarity of documents. Using a content analysis method, the present research aims to compare the powers of five kinds of contexts including text citations, references, reference titles, paper titles and texts in homograph sense disambiguation.
Methodology: Applying a content analysis method, the present paper concentrates on a document test collection built on English homographs by choosing a sample consisted of 3637 articles containing 19 homographs about 54 subjects published during 2000-2015. Discriminant analysis was used to determine the similarity within or differentiation between the 54 document clusters.
Findings: According to the results of the discriminant analyses carried out within each of the clusters, sub-clusters of documents can be observed, though with a very little differentiation in terms of the homograph contexts. Text-citation and reference contexts are revealed to have minimum role in differentiating between the documents within the clusters.
Conclusion: Documents containing synonymous homographs form clusters within which documents are rather similar in terms of their homograph contexts. Furthermore, homograph context types are not equal in their power to determine similarities. Text-citation context and reference context types showed the highest degree of similarities within the clusters. These two context types, which show high similarity within clusters, can be used to improve retrieval results. It is suggested that the results of the comparison of these two contexts can be used as a tool for secondary ranking or clustering of information retrieval results
Originality: This is the first research, of its kind, to define different text contexts and compare them in terms of their power to determine similarity of texts containing synonymous homographs.

کلیدواژه‌ها [English]

  • Homographs
  • similarity
  • Word Sense Disambiguation
  • title context
  • reference-title context
  • text-citation context
  • text context
  • reference context
  • Discriminant analysis