روشی برای رفع چالش‌های محتواکاوی در وب‌های فارسی زبان

نویسندگان

چکیده

زبان فارسی از دو منظر برای ما ایرانیان دارای اهمیت است. اول آن‌که این زبان با تاریخ و فرهنگ و تمدن ما پیوندی دیرینه و ناگسستنی دارد و دوم آن‌که زبان فارسی زبان رسمی کشور و ابزار مبادله اندیشه‌ها وایده‌ها در عرصه علمی و فرهنگی این مرز‌و‌‌بوم محسوب می‌گردد. رشد علمی و فنی و فرهنگی ما در گرو برقراری ارتباط زبانی و کلامی با دنیای الکترونیکی عرضه دانش و فرهنگ است که وب نام دارد و این میسر نیست جز با تقویت کیفی زبان فارسی مورد استفاده در این دهکده جهانی. اما زبان فارسی، در تلاقی با جهان الکترونیکی، بخصوص از بُعد رسم‌الخط، دارای دشواری‌هایی است که کاوش در محتویات آن را دچار کم‌کیفیتی می‌نماید. این مقوله مستلزم تمهیداتی چند است تا زبان فارسی را به زبانی مناسب برای پهنه الکترونیکی دادوستد دانش ـ وب ـ تبدیل نماید. مقاله حاضر تلاشی است درجهت مرتفع‌سازی چالش‌های کاوش در وب‌های فارسی‌زبان که از دیدگاه رسم‌الخطی، با استفاده از نمایه‌سازی فارسی و دیدگاه مفهومی، با استفاده از انتولوژی قابل بحث هستند.

کلیدواژه‌ها


عنوان مقاله [English]

A Method for Meeting the Challenge of Web Mining of Farsi Language Websites

نویسندگان [English]

  • Seyed Mojtaba Shahidi
  • Mohsen Seddiqui
  • Kamran ZamaniFar
چکیده [English]

 Farsi Language importance is twofold for Iranians. First, the language has an ancient and inseparable bond with Iranian history, culture and civilization. Second, it is the official language of Iran and the primary instrument for exchange of ideas and thoughts in the fields of science and culture. Our cultural, scientific and technical growth is tied with establishing lingual connection with the electronic world of scientific and cultural exchange represented by the Web. This is not possible unless the quality of Farsi language in this global village is improved. The Farsi script provides unique hardships in the electronic domain that has deleterious effects on the quality of content search. Thus new arrangements must be envisioned to transform the Persian language, from a language of poetry and mysticism to a one more suitable to the electronic domain of scientific exchange. The present article attempts to address the challenges in searching the Farsi language websites from the standpoints of script and Farsi concept indexing using Ontologies.

کلیدواژه‌ها [English]

  • ontology
  • Farsi Indexing
  • Farsi web search
  • Web Mining
  • Crawler
  • Content Analysis
  • Farsi writing style
  • Indexing