پیکره متون زبان طبیعی: طراحی، ساخت و مدیریت(1402/09/11)

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشگاه تهران

2 پژوهشگاه علوم وفناوری اطلاعات

چکیده

هدف: با توجه به نقش پیکره‏ها در حوزه‏های مطالعاتی گوناگون و لزوم ساخت یک پیکره عمومی برای افزایش کارایی و اثربخشی در پردازش‏هایی که مستلزم بهره‏جویی و استفاده از متن زبان طبیعی است، هدف این مطالعه، تمرکز بر طراحی و ساخت خودکار پیکره متون زبان طبیعی و نرم‏افزاری برای مدیریت آن است.
روش: در این پژوهش، از روش مبتنی بر فناوری برای ساخت پیکره تک زبانه و به زبان فارسی استفاده شده است. این پیکره به صورت خودکار و با گردآوری داده‏های وبی تولیده شده و منابع آن را متون خبری مندرج در خبرگزاری‏های فارسی زبان تشکیل داده است.
یافته‏ها: در این مطالعه، پیکره‏ای از متون زبان طبیعی به زبان فارسی ساخته شده است. با توجه به خودکار بودن فرایند ساخت پیکره، نرم‏افزاری برای مدیریت آن چه در مرحله ساخت و چه در مرحله استخراج اطلاعات نیاز است که در این مطالعه طراحی، ساخته و پیاده‏سازی شده است.
نتیجه‏گیری: ساخت پیکره‏ای عمومی از متون زبان طبیعی برای اهداف پژوهشی گوناگون کاربرد دارد و روش پیشنهادی و استفاده از ابزارهای معرفی شده در این مطالعه می‏تواند ساخت پیکره را تسهیل کند. همچنین طراحی نرم‏افزاری برای مدیریت پیکره، صرفه‏جویی در زمان و هزینه ساخت را به همراه خواهد داشت و امکان استحراج اطلاعات از آن را فراهم خواهد کرد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Natural Language Text Corpus: Design, Construction and Management

نویسندگان [English]

  • Hamideh Asadi 1
  • Nader Naghshineh 1
  • Moluk Sadat Hosseini Beheshti 2
1 University of Tehran
2 Iranian Research Institue for Information Science and Technology (IranDoc)
چکیده [English]

Aim: Considering the role of corpora in various fields of study and the need to construct a general corpus to increase efficiency and effectiveness in processes that require the extraction/use of natural language text, the purpose of this study is to focus on design and automatic construction of natural language text corpus and software for its management.
In this research, a technology-based method has been used to build a monolingual composition in Persian language
Methodology: In this research, a technology-based method has been used to construct a monolingual corpus in Persian language. This corpus is produced automatically by collecting web data and its sources are news texts included in Persian language news agencies.
Findings: In the study, a corpus of natural language texts in Persian language was made. Due to the automaticity of the construction process, software is needed to manage it both in the construction stage and in the information extraction stage, which was designed, construct and implemented in this study.
Result: The construction of general corpus of natural language texts is used for various research purposes, and the proposed method and the use of introduced tools in this study can facilitate the construction of corpus. Also, software design for corpus management will save time and cost of construction and will provide the possibility of extracting information from it.

کلیدواژه‌ها [English]

  • Corpus
  • Data Set
  • Natural Language Processing
  • NLP
  • Corpus Linguistic
  • Artificial Intelligence