شناسایی نویسندگان پیام های الکترونیکی از طریق واکاوی نوع و سبک نگارش آن ها مبتنی بر روش های یادگیری ماشین(WKF based on SVM-PHGS)

نویسندگان

چکیده

شناسایی نویسنده یکی از مسایل مهم در دسته بندی متن و پردازش زبا نهای طبیعی به شمار می رود. این نوشتار دستآورد پژوهشی با هدف تعیین هوشمند نوشته های 50 نویسنده سایبری(50 نفر از مشتریان بالقوه ی وب سایت آمازون با توجه به پیام ها و مراجعاتی که به این وب سایت داشته اند انتخاب شده اند) به کمک روش های یادگیری ماشین است. برای سنجش کارایی روش پیشنهادی، دقت تصمیم گیری آزموده و نتایج آنها با بازدهی روش های یادگیری ماشین مقایسه شده است. همچنین در هنگام استخراج ویژگیهای گوناگون نوشته های نویسندگان برای ارزیابی توسط ماشین، کوشش شده تا حداکثر ویژگی های مورد نیاز برای تشخیص نویسنده شبیه سازی گردد و بدین منظور، نزدیک به10000 ویژگی گوناگون از نوشته های مختلف استخراج شده و در چهار دسته ی ویژگی های لغوی ، ویژگی های نحوی ، ویژگی های خاص و ویژگی های ساختاری قرار گرفته اند. در این پژوهش به طور میانگین دقت تعیین نویسنده به کمک روش پیشنهادی تا 98/78 درستی نیز رسیده است.

کلیدواژه‌ها


عنوان مقاله [English]

Identify the Authors of Electronic Messages Through the Analysis of the Type and Style Based on Machine Learning Technique

نویسندگان [English]

  • Samira Zangoei
  • Hassanali Nemati Shamsabad
چکیده [English]

Identifying the author of an electroni message is one of
the main problems in text classification and natural language
processing. The aim of this article is to determine the authors of 50
cyber messages (by 50 potential customers, according to Amazon 's
website), by a machine learning methods. To evaluate the
effectiveness of the proposed method, the decision was carefully
tested and the results were compared with the performance of
machine learning methods. Also, when extracting various features of
authors' writing style for evaluation by machine, we tried to maximize
the features required to identify a writer. Therefore, nearly 10,000
different features were extracted from different entries in four
categories: lexical features, syntactic features, special features and
structural features. In this study, the average accuracy of the proposed
method reached to 98. 78.

کلیدواژه‌ها [English]

  • Identification of Authors
  • Machine Learning Methods
  • Characteristics of Writing Styles