تهیهٔ فهرست بسامدی واژگان علمی فارسی با بهره‌گیری از پیکرهٔ علمی

نویسندگان

دانشگاه شیراز؛ شیراز، ایران

چکیده

واژه‌های علمی واژه‌هایی هستند که در طیف وسیعی از رشته‌های علمی بسامد بالایی دارند و بسامدشان در متون علمی بسیار بیشتر از بسامدشان در سایر متون است. دسترسی به فهرستی بسامدی از واژه‌های علمی می‌تواند به یادگیری سریع‌تر زبان علمی کمک کند. پیش‌نیاز تهیة چنین فهرستی ایجاد پیکره‌ای متوازن از متون علمی فارسی است. برای این منظور، متون علمی منتشرشده در نشریات علمی فارسی با برنامه‌نویسی رایانه‌ای و توسعة خزندة وب جمع‌آوری شد. سرانجام، پیکره‌ای شامل بیش از ۵۱ میلیون واژه با حجم متوازنی از داده در چهار حوزة موضوعی شامل «علوم پایه و فنی و مهندسی»، «علوم انسانی و هنر و معماری»، «پزشکی و دامپزشکی» و «کشاورزی و منابع طبیعی» ساخته شد. در این پژوهش پس از بررسی ملاحظات مربوط به توسعة فهرست‌های بسامدی علمی، فهرستی از واژه‌های علمی فارسی تهیه شد که شامل ۳۰۷ بن‌واژه است و در متون علمی بسامد بالایی دارند که بسامدشان در متون علمی به ‌مراتب بیشتر از متون عمومی است و پراکندگی مناسبی در موضوعات مختلف علمی دارند. نتایج ارزیابی فهرست بسامدی تهیه‌شده نشان‌دهندة پوشش بیش از ۱۶ درصدی فهرست روی متون علمی است که این درصد با پوشش فهرست‌های جمع‌آوری‌شده برای زبان‌های دیگر مطابقت دارد. همچنین، توزیع مناسب واژه‌های فهرست جمع‌آوری‌شده در چهار حوزة موضوعی پیکره باعث شده است که میزان پوشش در هر یک از این حوزه‌های موضوعی نیز عددی قابل ‌قبول بین ۱۲ تا ۱۸ درصد باشد. فهرست واژه‌های علمی استخراج‌شده می‌تواند برای اهداف مختلف آموزشی و پژوهشی مورد استفاده قرار گیرد. همچنین، پیکرة علمی تهیه‌شده نیز منبع ارزشمندی برای مطالعات حوزة زبان‌شناسی پیکره‌ای و پژوهش‌های مرتبط با پردازش زبان است.

کلیدواژه‌ها


عنوان مقاله [English]

Development of a Persian Academic Word List Based on an Academic Corpus

نویسندگان [English]

  • Morteza Rezaei Sharifabadi
  • Amirsaeid Moloodi
  • Alireza Ahmadi
  • Alireza Khormaei
چکیده [English]

Academic words occur with high frequency in texts from a wide range of scientific fields, and their frequency in academic texts is much higher than in general texts. Academic wordlists can facilitate the learning and teaching of scientific language. In this research, we have developed a frequency list of Persian academic words. The word list includes 307 word lemmas with a high frequency in academic texts. Creating a balanced corpus of Persian academic texts was the prerequisite for developing such a list. For this purpose, we collected scientific texts published in Persian scientific journals and built a balanced corpus containing more than 51 million words. The corpus includes texts of academic papers in four general categories, i.e., basic sciences and engineering; humanities, arts, and architecture; medicine and veterinary medicine; and agriculture and natural resources. We used four different criteria for lemmas to be included in our wordlist. 1- frequency: The lemmas should have a relative frequency of at least 30 per million words. 2- ratio: The relative frequency of the lemmas in the academic corpus should be two times greater than their frequency in a 10 million word general corpus. 3- dispersion: Juilland's D value of the lemmas in the four sections should be at least 0.5. 4- range: the observed frequency of the lemma should not be less than a third of its expected frequency in any of the four sections of the corpus. We evaluated the wordlist by measuring its coverage in our corpus's train and test sections. The wordlist covers 16.69 percent of the train subset and 16.13 percent of the test subset.

کلیدواژه‌ها [English]

  • frequency list
  • academic wordlist
  • academic corpus
  • Persian language
  • corpus linguistics
انوری، حسن، احمد معین‌الدینی، و فاطمه معین‌الدینی. ۱۳۸۵. کلک خیال‌انگیز: فرهنگ بسامدی و تصویری دیوان حافظ. تهران: سخن.
بی‌جن‌خان، محمود، و مهدی محسنی. ۱۳۹۷. فرهنگ بسامدی بر اساس پیکرة متنی زبان فارسی امروز. تهران: دانشگاه تهران.
بی‌جن‌خان، محمود، عباس نصری، و شهره جلایی. ۱۳۹۳. نقش واژگان بسامدی در ارزیابی مهارت واژگانی فارسی‌آموزان. پژوهشنامة آموزش زبان فارسی به غیرفارسی‌زبانان ۳ (۲): 25-45.
جهانگرد، کیومرث، مصطفی عاصی، آزیتا افراشی، و امیررضا وکیلی‌فرد. ۱۳۹۵. واژه در کتاب‌های آموزش زبان فارسی به غیرفارسی‌زبانان: پژوهشی پیکره‌بنیاد. پژوهشنامة آموزش زبان فارسی به غیرفارسی‌زبانان ۵ (۲): 3-26.
حسنی، حمید. ۱۳۸۴. واژه‌های پرکاربرد فارسی امروز بر مبنای پیکره یک میلیون لغتی. تهران: کانون زبان ایران.
دانشگر، احمد. ۱۳۹۰. دیوان پروین اعتصامی به انضمام فرهنگ بسامدی اشعار. تهران: جهان‌تاب.
دبیرخانة شورای‌عالی انقلاب فرهنگی. ۱۳۸۹. نقشة جامع علمی کشور. تهران: دبیرخانة شورای‌عالی انقلاب فرهنگی.
ذوالفقار، زهره، طیبه موسوی میانگاه، بلقیس روشن، و امیررضا وکیلی‌فرد. ۱۳۹۹. بررسی تکنیک‌های بهبود عملکرد روش‌های بسامدشماری پیکره‌بنیاد در استخراج خودکار واژگان. پژوهشنامه پردازش و مدیریت اطلاعات ۳۵ (۴): 1039-1063.
رضایی دینانی، مینا. 1401. واکاوی تأثیر برچسب‌گذاری معنایی در ابهام‌زدایی هم‌نویسه‌های تخصصی از نظر کیفیت بازیابی (معیار F) در بازیابی متون علمی. پژوهشنامة پردازش و مدیریت اطلاعات. دریافت از https://jipm.irandoc.ac.ir (دسترسی در ۱۰/۳/۱۴۰۱).
شریفی، عطیه، و محمدامین مهدوی. ۱۳۹۷. رویکردی با ناظر در استخراج واژگان کلیدی اسناد فارسی با استفاده از زنجیره‌های لغوی. پردازش علائم و داده‌ها ۱۵ (۴): 95-119.  
صحرایی، رضامراد، امیرحسین مجیری فروشانی، و مروارید طالبی. ۱۳۹۸. واژه‌های پایة زبان فارسی مبتنی ‌بر متون مطبوعاتی. زبان‌پژوهی 11 (۳۳). ۳۵۳-۳۷۸.
صحرایی، رضامراد، مروارید طالبی، و امیرحسین مجیری فروشانی. ۱۳۹۶ مقایسه واژه‌های پایة زبان فارسی در شش پژوهش. پژوهشنامة آموزش زبان فارسی به غیرفارسی‌زبانان ۶ (۱): ۱۱۵-۱۳۴.
صدیقی‌فر، زهره، جلال رحیمیان، و علیرضا خرمایی. ۱۴۰۰. شناسایی پیکره‌بنیاد الگوهای انسجام‌بخشی در گفتمان علمی زبان فارسی: رویکردی کاربردی در آموزش زبان فارسی برای اهداف دانشگاهی. پژوهشنامة آموزش زبان فارسی به غیرفارسی‌زبانان ۱۰ (۲): ۱۸۳-۲۱۲ .
عاصی، مصطفی. ۱۳۹۸. فرهنگ زبان‌آموز پیشرفته فارسی. تهران: سمت.
عامری، حیات و حسن ذوالفقاری .۱۳۹۱. واژگان پایه و واژگان‌نگاری کودک در زبان فارسی. مطالعات برنامه درسی ایران ۲۷: ۱۵۹-۱۷۴.
علایی ابوذر، الهام، نصرالله پاک‌نیت، علی‌اصغر حجت‌پناه، مجتبی زالی، و محمدهای آقالویی آغمیونی. ۱۴۰۰. معرفی یک پیکره متنی تخصصی: پیکره پژوهشنامه. نشریه پژوهش‌های زبان‌شناسی تطبیقی ۱۱ (۲۲): ۲۷۱-۲۸۹.
قیومی، مسعود، و مریم موسویان. ۱۴۰۱. کاربرد یادگیری ماشینی مبتنی ‌بر شبکه عصبی برای دسته‌بندی مستندات علمی. پژوهشنامه پردازش و مدیریت اطلاعات ۳۷ (۴): ۱۲۱۷-۱۲۴۴.
کامیابی‌گل، عطیه، الهام اخلاقی باقوجری، احسان عسگریان، و هانیه حبیبی. ۱۳۹۷. استخراج اطلاعات از پیکرة زبانی: معرفی پیکرة مقاله‌های علمی‌پژوهشی دانشگاه فردوسی. نشریة کتابداری و اطلاع‌رسانی ۲۱ (۲): ۳-۲۵.
مجلی‌زاده، امین. ۱۳۹۴. کتاب‌شناسی پژوهش‌های بسامدی در زبان و ادب فارسی. فرهنگ‌نویسی ۹: ۹۵-۱۰۴.
محرابی، الهه، آزاده محبی، و عباس احمدی. ۱۴۰۰. بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعة موردی: پایان‌نامه‌ها و رساله‌های فارسی. پژوهشنامه پردازش و مدیریت اطلاعات ۳۷ (۱): ۱۹۷-۲۲۸.
نویدی، امین، حیات عامری، و زهرا ابوالحسنی چیمه. ۱۴۰۰. مقایسة واژه‌های آموزشی کتاب‌های آموزش زبان فارسی با واژه‌های پربسامد. پژوهشنامة آموزش زبان فارسی به غیرفارسی‌زبانان ۱۰ (۲): ۲۱۳-۲۳۵ .
Bauer, Laurie, and Paul Nation. 1993. Word families. International journal of Lexicography 6 (4): 253-279.
Bijankhan, M., J. Sheykhzadegan, M. Bahrani, and M. Ghayoomi. 2011. Lessons from building a Persian written corpus: Peykare. Language Resources and Evaluation 45 (2): 143-164.
Brezina, Vaclav, and Dana Gablasova. 2015. Is there a core general vocabulary? Introducing the new general service list. Applied Linguistics 36 (1): 1-22.
Browne, C., B. Culligan, and J. Phillips. 2013. New general sevice list. Retrieved from http://www.newgeneralservicelist.org (accessed Apr. 9, 2022)
Coxhead, Averil, and David Hirsch. 2007. A pilot science-specific word list. Revue française de linguistique appliquée 12 (2): 65-78.
Coxhead, Averil and Paul Nation. 2001. The Specialised Vocabulary of English for Academic Purposes. In Flowerdewand Peacock. Research Perspectives on English for Academic Purposes. Cambridge: Cambridge University Press.
Coxhead, Averil. 2000. A new academic word list. TESOL quarterly 34 (2): 213-238.
Coxhead, Averil. 2011. The academic word list 10 years on: Research and teaching implications. Tesol Quarterly 45 (2): 355-362.
Dang, T. N. Y., A. Coxhead, and S. Webb. 2017. The academic spoken word list. Language Learning 67 (4): 959-997.
Elahimanesh, M. H., B. Minaei-Bidgoli, M. J. Gholami, and H. Juzi. 2012. An Introduction to Noor Corpus and its Language Model. In Proceedings of the 1st international conference on Persian language processing. Semnan, Iran.
Gardner, Dee, and Davies, Mark. 2013. A new academic vocabulary list. Applied Linguistics 35 (3): 305-327.
Gilmore, Alexander, and Neil Millar. 2018. The language of civil engineering research articles: A corpus-based approach. English for Specific Purposes 51: 1-17.
Hsu, Wenhua. 2013. Bridging the vocabulary gap for EFL medical undergraduates: The establishment of a medical word list. Language Teaching Research 17 (4): 454-484.
Hsu, Wenhua. 2014. Measuring the vocabulary load of engineering textbooks for EFL undergraduates. English for Specific Purposes 33: 54-65.
Hyland, Ken, and Polly Tse. 2007. Is there an “academic vocabulary”? TESOL quarterly 41 (2): 235-253.
Juilland, Alphonse, & Eugenio Chang-Rodríguez. 1964. Frequency dictionary of Spanish words. The Hague: Mouton.
Konstantakis, Nikolaos. 2007. Creating a business word list for teaching business English. ELIA: Estudios de Lingüística Inglesa Aplicada 7: 79-102.
Leech, Geoffrey. 2011. Frequency, corpora and language learning. A Taste for Corpora: In Honour of Sylviane Granger 7: 32.
Lei, Lei, and Dilin Liu. 2016. A new medical academic word list: A corpus-based study with enhanced methodology. Journal of English for Academic Purposes 22: 42-53.
Miller, Corey, and Karineh Aghajanian-Stewart. 2017. A Frequency dictionary of Persian: Core vocabulary for learners. New York: Routledge.
Nagy, William, and Dianna Townsend. 2012. Words as tools: Learning academic vocabulary as language acquisition. Reading Research Quarterly 47 (1): 91-108.
Nation, Paul. 2013. Learning vocabulary in another language. Cambridge: Cambridge University Press.
Paquot, Magali. 2007. Towards a productively-oriented academic word list. In J. Walinski, K. Kredens, and S. Gozdz-Roszkowski (Eds.), Corpora and ICT in language studies. PALC 2005. Lodz studies in LANGUAGE 13 (pp. 127–140). Frankfurt am main: Peter Lang.
Praninskas, Jean. 1972. American university word list. Harlow: Longman.
Rezaei Sharifabadi, Morteza, and Ahmad Eftekhari. 2016. Mahak Samim: A Corpus of Persian Academic Texts for Evaluating Plagiarism Detection Systems. In FIRE (Working Notes). 190-192.
Rezvani, Reza, Abbas Gholtash, and Gerannaz Zamani. 2016. The first corpus-based Persian academic word list: Development and pedagogical implications. Journal of Teaching Persian to Speakers of Other Languages 5 (1): 43-64.
Wang, J., S. L. Liang, and G. C. Ge. 2008. Establishment of a medical academic word list. English for Specific Purposes 27 (4): 442-458.
Ward, Jeremy. 2009. A basic engineering English word list for less proficient foundation engineering undergraduates. English for specific purposes 28 (3: 170-182.
West, Michael. 1953. A general service list of English words: with semantic frequencies and a supplementary word-list for the writing of popular science and technology. London: Longmans, Green.
Xue, Guoyi., and Paul Nation. 1984. A university word list. Language Learning and Communication 3 (2): 215-229.