تهیهٔ فهرست بسامدی واژگان علمی فارسی با بهره‌گیری از پیکرهٔ علمی

نویسندگان

دانشگاه شیراز؛ شیراز، ایران

چکیده

واژه‌های علمی واژه‌هایی هستند که در طیف وسیعی از رشته‌های علمی بسامد بالایی دارند و بسامدشان در متون علمی بسیار بیشتر از بسامدشان در سایر متون است. دسترسی به فهرستی بسامدی از واژه‌های علمی می‌تواند به یادگیری سریع‌تر زبان علمی کمک کند. پیش‌نیاز تهیه چنین فهرستی، ایجاد پیکره‌ای متوازن از متون علمی فارسی است. برای این منظور، متون علمی منتشرشده در نشریات علمی فارسی با برنامه‌نویسی رایانه‌ای و توسعه خزنده وب جمع‌آوری شد. در نهایت پیکره‌ای شامل بیش از ۵۱ میلیون واژه با حجم متوازنی از داده در چهار حوزه موضوعی شامل «علوم پایه و فنی و مهندسی»، «علوم انسانی و هنر و معماری»، «پزشکی و دامپزشکی» و «کشاورزی و منابع طبیعی» ساخته شد. در این پژوهش پس از بررسی ملاحظات مربوط به توسعه فهرست‌های بسامدی علمی، فهرستی از واژه‌های علمی فارسی تهیه شد که شامل ۳۰۷ بن‌واژه است که در متون علمی بسامد بالایی دارند، بسامدشان در متون علمی به‌مراتب بیش از متون عمومی است و پراکندگی مناسبی در موضوعات مختلف علمی دارند. نتایج ارزیابی فهرست بسامدی تهیه‌شده نشان‌دهنده پوشش بیش از ۱۶ درصدی فهرست روی متون علمی است که این درصد با پوشش فهرست‌های جمع‌آوری‌شده برای زبان‌های دیگر مطابقت دارد. همچنین توزیع مناسب واژه‌های فهرست جمع‌آوری‌شده در چهار حوزه موضوعی پیکره باعث شده است که میزان پوشش در هر یک از این حوزه‌های موضوعی نیز عددی قابل‌قبول بین ۱۲ تا ۱۸ درصد باشد. فهرست واژه‌های علمی استخراج‌شده می‌تواند برای اهداف مختلف آموزشی و پژوهشی مورداستفاده قرار گیرد. همچنین پیکره علمی تهیه‌شده نیز منبع ارزشمندی برای مطالعات حوزه زبان‌شناسی پیکره‌ای و پژوهش‌های مرتبط با پردازش زبان است.

کلیدواژه‌ها


عنوان مقاله [English]

Development of a Persian Academic Word List Based on an Academic Corpus

نویسندگان [English]

  • Morteza Rezaei Sharifabadi
  • Amirsaeid Moloodi
  • Alireza Ahmadi
  • Alireza Khormaei
چکیده [English]

Academic words occur with high frequency in texts from a wide range of scientific fields, and their frequency in academic texts is much higher than in general texts. Academic wordlists can facilitate the learning and teaching of scientific language. In this research, we have developed a frequency list of Persian academic words. The word list includes 307 word lemmas with a high frequency in academic texts. Creating a balanced corpus of Persian academic texts was the prerequisite for developing such a list. For this purpose, we collected scientific texts published in Persian scientific journals and built a balanced corpus containing more than 51 million words. The corpus includes texts of academic papers in four general categories, i.e., basic sciences and engineering; humanities, arts, and architecture; medicine and veterinary medicine; agriculture and natural resources. We used four different criteria for lemmas to be included in our wordlist. 1- frequency: The lemmas should have a relative frequency of at least 30 per million words. 2- ratio: The relative frequency of the lemmas in the academic corpus should be two times greater than their frequency in a 10 million word general corpus. 3- dispersion: Juilland's D value of the lemmas in the four sections should be at least 0.5. 4- range: the observed frequency of the lemma should not be less than a third of its expected frequency in any of the four sections of the corpus. We evaluated the wordlist by measuring its coverage in our corpus's train and test sections. The wordlist covers 16.69 percent of the train subset and 16.13 percent of the test subset.

کلیدواژه‌ها [English]

  • frequency list
  • academic wordlist
  • academic corpus
  • Persian language
  • Corpus linguistics