ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران

2 عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران

3 عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر

چکیده

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته­ای نسبت داد .
در این مقاله، بعد از انتخاب مجموعه داده و پاک­سازی متون  به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگی­ها وزن داده می­شود و در طی دو مرحله ویژگی­ها با استفاده از روش­های فرکانس سند (DF) و مربع چی(SChi) انتخاب می­شوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگی­ها کاهش داده می­شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی می­پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحله‌ای ارزیابی می­کنیم  نتایج تجربی نشان می­دهد که این مدل می­تواند عمل دسته­بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.

کلیدواژه‌ها


]1[  ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی  PCA و الگوریتم ژنتیک،" کنفرانسملی برق و الکترونیک، گناباد، 29-28 مرداد1394.
]2[  محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریهعلمیپژوهشیانجمنکامپیوترایران، جلد 8 ، شماره 1 و3 ، صفحه 13-8، 1389.
]3[  محمدحسین. الهی‌منش، و بهروز. مینایی، "رده‌بندی متون فارسی با استفاده از روش‌های آماری،" ارائه شده در سمینار فناوری‌های پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90.
]4[  الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه های کامپیوتری، مدل سازی و امنیت سیستم ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر1392.
]5[  سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر1393.
]6[  مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند1385.
]7[  سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریهدانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385.
]8[  مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم های PCA , KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکرد های نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر1392.
]9[  محمد. صنیعی آباده، و همکاران، داده­کاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.
[10]  A. Bagheri, and et al, "PSA: A Hybrid Feature Selection Approach for Persian Text Classification," Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.
[11]  http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html.
[12]  B. Schölkopf, and et al, Advances in Kernel Methods Support Vector Learning, Cambridge, MA: MIT Press, 1998.
[13]  B. E. Boser, "A training algorithm for optimal margin classifiers," Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.
[14]  N. Christiani, and et al, An introduction to support vector machines, Cambridge, MA: Cambridge University, 2000.
[15]  J. Platt, Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Technical Report MSR-TR-98-14, 1998.
[16]  D. Ruta, and et al, "An Overview of Classifier Fusion Methods," Computing and Information Systems, Vol. 7, pp. 1-10, 2000.