سیستم شناسایی و طبقه‌بندی موجودیت‌های اسمی در متون زبان فارسی بر پایه شبکه عصبی

نویسندگان

دانشگاه آزاد اسلامی واحد تهران جنوب

چکیده

شناسایی موجودیت‌های اسمی به عنوان یک وظیفه پایه‌ای در حوزه پردازش زبان طبیعی و به طور کلی زیر مجموعه‌ای از استخراج اطلاعات است. در فرآیند شناسایی موجودیت‌های اسمی به دنبال مکان‌یابی عناصر اسمی در متن و دسته‌بندی آن‌ها به رده‌هایی از پیش تعیین شده از قبیل اسامی اشخاص، سازمان‌ها، مکان‌ها، عبارت‌های زمانی، و غیره هستیم. هرچند پژوهش‌هایی گسترده در توسعه سیستم‌های شناسایی موجودیت‌های اسمی در حوزه زبان انگلیسی درطی سال‌های پیشین انجام گرفته است، متاسفانه با توجه به مشکلات موجود، مانند نبود پیکره‌های متنی نشانه‌گذاری شده استاندارد در زبان فارسی، پژوهش‌های بسیار محدودی در زبان فارسی وجود دارد. در این مقاله با بررسی پژوهش‌های انجام گرفته در دیگر زبان‌ها و با بهره‌گیری از روش‌های تازه در این حوزه همانند استفاده از نمایش بردارهای عددی برای کلمات، به توسعه سیستمی برای شناسایی موجودیت‌های اسمی بر پایه شبکه عصبی پرداخته شده است. نتایج بدست آمده از مدل پیشنهادی نشان دهنده این واقعیت است که استفاده از مدل‌های نمایش بردارهای عددی برای کلمات در زبان فارسی، افزون بر مرتفع کردن مشکل انتخاب ویژگی‌ها، می‌تواند به توسعه سیستمی کارآمد منجر شود که کم‌ترین وابستگی را نیز به دامنه دارد.

کلیدواژه‌ها


عنوان مقاله [English]

Named entities recognition and classification system for Persian texts based on neural network

نویسندگان [English]

  • Mojtaba Zali
  • Mohsen Firoozbakht
چکیده [English]

Named Entity Recognition (NER) is a fundamental task in natural language processing and also known as a subset of information extraction. We seek to locate and classify named entities in text into predefined categories such as the names of persons, organizations, locations, expressions of times, etc. Named Entity Recognition for English texts has been researched widely for the past years, however only a few limited researches have emphasized on Persian NER due to the absence of resources for Persian named entities and the limited amount of progress made in Persian natural language processing in general. In this paper, a Persian named entity recognition system has been developed based on neural network with the study of researches conducted in other languages and benefiting from the latest methods in this area such as using the vector representation of words. The results from the proposed model show that word embedding features in Persian not only resolve the problem of feature selection, but also it could lead to the development of an efficient system with the least dependence to the domain.

کلیدواژه‌ها [English]

  • Natural Language Processing
  • Named Entity Recognition
  • Neural network
  • Vector Representation of Words