ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران

2 عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران مرکزی، تهران، ایران

3 عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر

چکیده

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته­ای نسبت داد. در این مقاله، بعد از انتخاب مجموعه داده و پاک­سازی متون به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگی­ها وزن داده می­شود و در طی دو مرحله ویژگی­ها با استفاده از روش­های فرکانس سند (DF) و مربع چی (SChi) انتخاب می­شوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگی­ها کاهش داده می­شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی می­پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحله‌ای ارزیابی می­کنیم نتایج تجربی نشان می­دهد که این مدل می­تواند عمل دسته­بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.

کلیدواژه‌ها


]1[ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی PCA و الگوریتم ژنتیک،" کنفرانسملی برق و الکترونیک، گناباد، 29-28 مرداد 1394.

]2[محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریهعلمیپژوهشیانجمنکامپیوترایران، جلد 8، شماره 1 و 3، صفحه 13-8، 1389.

]3[محمدحسین. الهی‌منش، و بهروز. مینایی، "رده‌بندی متون فارسی با استفاده از روش‌های آماری،" ارائه شده در سمینار فناوری‌های پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90.

]4[الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه‌های کامپیوتری، مدل سازی و امنیت سیستم‌ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر 1392.

]5[سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک‌های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر 1393.

]6[مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند 1385.

]7[سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریهدانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385.

]8[مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه‌های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم‌های PCA, KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر 1392.

]9[محمد. صنیعی آباده، و همکاران، داده­کاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.

[10] A. Bagheri, and et al, "PSA: A Hybrid Feature Selection Approach for Persian Text Classification," Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.

[11] http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html.

[12] B. Schölkopf, and et al, Advances in Kernel Methods Support Vector Learning, Cambridge, MA: MIT Press, 1998.

[13] B. E. Boser, "A training algorithm for optimal margin classifiers," Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.

[14] N. Christiani, and et al, An introduction to support vector machines, Cambridge, MA: Cambridge University, 2000.

[15] J. Platt, Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Technical Report MSR-TR-98-14, 1998.

[16] D. Ruta, and et al, "An Overview of Classifier Fusion Methods," Computing and Information Systems, Vol. 7, pp. 1-10, 2000.