طراحی و پیاده‌سازی یک سامانه‌ بازیابی اطلاعات دوزبانه با استفاده از پیکره‌های زبانی (ویژه نامه ذخیره، بازیابی و مدیریت اطلاعات زمستان 90)

نویسندگان

1 دانشگاه آزاد اسلامی واحد یزد

2 دانشگاه پیام نور یزد

چکیده

بازیابی اطلاعات بین زبانی به فرایندی گفته می‌شود که طی آن یک کاربر، جستاری (یک واژه، عبارت، یا حتی جمله‌ای) را به یک زبان جستجو می‌کند درحالی‌که انتظار دارد نتایج جستجوی خود را به زبان دیگری دریافت نماید. یکی از مشکلات عمده‌ کاربران فارسی‌زبان در استفاده از منابع موجود در فضای سایبر، عدم امکان بازیابی موضوعات مورد نظر است که این مسأله تا حد زیادی به حجم کم اطلاعات به زبان فارسی در این فضا برمی‌گردد. استفاده از فرهنگ لغت نیز به‌دلیل عدم توانایی در ارائه‌ پاسخ مناسب به ترکیبات چندتایی رایج در زبان‌ها کمتر در این زمینه راه‌گشاست. طرح حاضر که با هدف یافتن راه‌حلی مناسب برای این مشکل با تهیه‌ نرم‌افزار آزمایشگاهی مرتبط تعریف شده است، سعی دارد که با استفاده از پیکره‌های یک‌زبانه و دوزبانه و با کمک الگوریتم‌های رایانه‌ای راه‌حل منطقی و مقرون به‌صرفه‌ای برای این مشکل ارائه نماید. به‌منظور آزمودن کیفیت کار سامانه‌ طراحی‌شده در این طرح، آزمایشی بر روی تعداد 100 ترکیب از زبان فارسی و انگلیسی انجام شد که برونداد سامانه‌ بازیابی اطلاعات برای این مجموعه از ترکیبات بسیار رضایت‌بخش بوده است. یکی از دستاوردهای اجرایی این طرح، بالا بردن دقت سامانه‌‌های بازیابی اطلاعات در موتورهای جستجو است که با استفاده از پیکره و بانک اطلاعاتی، ترکیب‌بندی واژه‌ها قابل دسترس است.

کلیدواژه‌ها


عنوان مقاله [English]

Designing and Implementing a Cross-Language Information Retrieval System Using Linguistic Corpora

نویسندگان [English]

  • Amin Nezarat 1
  • Tayebeh Mosavi Miangah 2
چکیده [English]

Information retrieval (IR) is a crucial area of natural language processing (NLP) and can be defined as finding documents whose content is relevant to the query need of a user. Cross-language information retrieval (CLIR) refers to a kind of information retrieval in which the language of the query and that of searched document are different. In fact, it is a retrieval process where the user presents queries in one language to retrieve documents in another language. This paper tried to construct a bilingual lexicon of parallel chunks of English and Persian from two very large monolingual corpora an English-Persian parallel corpus which could be directly applied to cross-language information retrieval tasks. For this purpose, a statistical measure known as Association Score (AS) was used to compute the association value between every two corresponding chunks in the corpus using a couple of complicated algorithms. Once the CLIR system was developed using this bilingual lexicon, an experiment was performed on a set of one hundred English and Persian phrases and collocations to see to what extend this system was effective in assisting the users find the most relevant and suitable equivalents of their queries in either language.

کلیدواژه‌ها [English]

  • Cross-language information retrieval
  • linguistic corpora
  • automated translation
  • intelligent factors