ساخت هستان‌شناسی دانش عرفی زبان فارسی با رویکردی تلفیقی

نویسندگان

دانشگاه صنعتی شریف

10.35050/JIPM010.2015.005

چکیده

تجهیز رایانه‌ها به دانش عرفی بشر همواره یکی از جاه‌طلبانه‌ترین اهداف علم هوش مصنوعی بوده است. میلیون‌ها دلار هزینه و هزاران ساعت‌ زمان صرف شده تا رایانه‌ها بفهمند که “اشیا بالا نمی‌روند، بلکه می‌افتند” و “دویدن از راه رفتن سریع‌تر است”. پایگاه‌های دانش عظیمی ساخته شد، روش‌های خودکار و نیمه‌خودکار متن‌کاوی پیشنهاد شده و از انگیزه همکاری کاربران عادی اینترنت به نفع اکتساب این دانش بهره‌ها برده شده است. ولی رسیدن به روشی خودکار، مؤثر و کم خطا همچنان به‌صورت چالشی بزرگ پیش روی جامعه هوش مصنوعی باقی‌مانده است. هدف این تحقیق ساخت هستان‌شناسی دانش عرفی فارسی به کمک سه روش مبتنی بر الگو، ترجمه ماشینی و استفاده از منابع ساخت‌یافته است. با کمک سه پیکره مختلف فارسی هفت نوع رابطه و در مجموع هفتاد هزار اظهار (رابطه) استخراج شده و در قالب یک هستان‌شناسی ارائه گشت. نتایج بررسی گویش‌وران فارسی نشان داد که میانگین دقت روابط استخراج‌شده این هستان‌شناسی برابر با 75 درصد برای روش مبتنی بر الگو، 70درصد برای ترجمه ماشینی و 100درصد برای اطلاعات استخراج‌شده از جعبه اطلاعات بود.

کلیدواژه‌ها


عنوان مقاله [English]

Commonsense knowledge extraction for Persian language: A combinatory approach

نویسندگان [English]

  • Mehdi Moradi
  • Bahram Vazirnezhad
  • Bahrani Mohammd
چکیده [English]

Putting human commonsense knowledge into computers has always been a long standing dream of artificial intelligence (AI). The cost of several tens of millions of dollars and times have been covered so that the computers could know about “objects falling, not rising.”,” running is faster than walking. The large database was built, automated and semi-automated methods were introduced and volunteers’ efforts were utilized to achieve this, but an automated, high-throughput and low-noise method for commonsense collection still remains as the holy grail of AI. The aim of this study was to build commonsense knowledge ontology using three approaches namely Hearst method, machine translation and using structured resources. Using three Persian corpuse and Applying aforementioned methods, we could extract 7 different relations. 70000 assertions have been extracted. Finally, average accuracy of Hearst, MT and structured resource were 75%, 75% and 100% respectively.

کلیدواژه‌ها [English]

  • Commonsense knowledge
  • ontology
  • relation extraction