استفاده همزمان از همبستگی‌خطی پیرسون و ترکیب الگوریتم‌های داده‌کاوی به منظور بهبود پیش‌بینی نوع تومور در بیماران سرطانی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 گروه مهندسی کامپیوتر، واحد بوشهر، دانشگاه آزاد اسلامی، بوشهر، ایران

2 گروه کامپیوتر، واحد تهران مرکز، دانشگاه آزاد اسلامی، تهران، ایران

چکیده

امروزه سرطان سینه از شایع‌ترین بیماری‌های سرطان در بین زنان بهشمار می‌آید. آمارها از رشد شش درصدی این نوع سرطان در ایران حکایت می‌کند که نشان دهنده جدی بودن خطر آن می‌باشد. این در صورتی است که در صورت پیشگیری و یا تشخیص زود هنگام بیماری می‌توان تا حد زیادی از خطرات آن جلوگیری نمود. با پیشرفت علوم پزشکی، زمینه لازم جهت ایجاد سیستمهایی با قابلیت پیشگیری، پیش‌بینی و درمان بیماران با استفاده از فناوری‌های جدید حاصل گردیده است. داده‌کاوی پزشکی سعی در مدل‌سازی و کشف روابط بین عوامل خطرساز جهت پیش‌بینی وضعیت بیماران آینده با کمک از داده‌های در‌دست دارد. در این پژوهش سعی گردیده تا با مقایسه الگوریتم‌های مختلف داده‌کاوی و ترکیب این الگوریتم‌ها، روشی جدید، کارا و با دقت بالا و قابلیت پیاده‌سازی بر روی داده‌های محلی ایجاد گردد. در نهایت روش پیشنهادی که به بهبود کارایی الگوریتم بیز ساده با استفاده از الگوریتم آدابوست می­پردازد، توانایی پیش‌بینی نوع تومور خوش‌خیم یا بدخیم با دقت96.67 درصد را دارا می­باشد. داده‌های لازم جهت این فرآیند از سایت UCI جهت تشخیص نوع تومور با569 رکورد و32 متغیر، استخراج گردیده است. 

کلیدواژه‌ها


[1]  Thangaraju, P., Mehala, R., (2015); “Novel Classification based approaches over Cancer Diseases ”, International Journal of Advanced Research in Computer and Communication Engineering, Vol 4 , Issue 4, 294-297

[2]  Karim Khani Zand   Hamid, (2015); “A COMPARITIVE SURVEY ON DATA MINING TECHNIQUES FOR BREAST CANCER DIAGNOSIS AND PREDICTION”, Indian Journal of Fundamental and Applied Life Sciences, Vol 5, 4330-4339

[3]  Majidi Zolbanin   Hamed, Delen Dorsan, Hassan Zadeh Amir, (2015); “Predicting overall survivability in comorbidity of cancers: A data mining approach ”, Elsevier Decision Support Systems 74,150-161

[4]Venkatalakshmi B, Shivsankar M.V, (2014);” Heart Disease Diagnosis Using Predictive Data mining”, International Journal of Innovative Research in Science, Engineering and Technology, Volume 3, Issue 3,1873-1877

[5] Vikas Chaurasia, Saurabh Pal, (2014); “A Novel Approach for Breast Cancer Detection using

Data Mining Techniques”, International Journal of Innovative Research in Computer

and Communication Engineering, Vol 2, Issue 1,2456-2465

[6]غلامی، م. برومندنیا، ع. (1395)، ارائه روشی با استفاده از ترکیب بهره اطلاعاتی، K نزدیکترین همسایه و شبکه های عصبی جهت پیش بینی وضعیت جنین ، یازدهمین کنفرانس علوم و تکنولوژی، مشهد، ایران، بهمن 95.

[7] میرعابدینی سیدجواد، غلامی، م. (1395)؛ «ارائه روشی جهت افزایش دقت تشخیص بیماری‌های قلبی با ترکیب الگوریتم‌های داده‌کاوی(MAWB)»، سومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات، سوم، تهران، دانشگاه شهید بهشتی

[8] P.Ramachandran, Dr.N.Girija, Dr.T.Bhuvaneswari, (2013); “Cancer Spread Pattern – an Analysis using Classification and Prediction Techniques ”, International Journal of Advanced Research in Computer and Communication Engineering, Vol 2, Issue 6,2363-2367

[9] Kharya  Shweta, (2012); “USING DATA MINING TECHNIQUES FOR DIAGNOSIS

AND PROGNOSIS OF CANCER DISEASE

”, International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), Vol 2, Issue 2,55-66

[10] Safdari Reza, Ghazisaeedi Marjan, et al (2013); “A Model for Predicting Myocardial Infarction Using Data Mining Techniques”, Iranian Journal of Medical Informatics, Vol 2, Issue 4,1-6

[11] غلامی، م. (1396)، داده­کاوی برای همه، تهران، انتشارات ناقوس، چاپ اول.

[12] North, M., (2012), Data mining for the masses. Amazon, First Edition

[13] Purusothaman, G., Krishnakumari, P., (2015), A Survey of Data Mining Techniques on Risk Prediction: Heart Disease, Indian Journal of Science and Technology, Vol 8(12), 2–5.

[14] غلامی، م. نجفی، ن، (1395)، بررسی و مقایسه اثربخشی الگوریتم های داده کاوی جهت پیشبینی بیماری پارکینسون، اولین کنفرانس بین المللی چشم اندازهای نو در مهندسی برق و کامپیوتر، تهران، ایران، دانشگاه علم و صنعت، بهمن 95.

[15]Durgalakshmi, B., Vijayakumar, V., (2015), Progonosis and Modelling of Breast Cancer and its Growth Novel Naive Bayes, Procedia Computer Science, Vol 50, 551, 553.

[16]چوبینه، پ. غلامی، م. (1395)، مقایسه شش الگوریتم برتر حوزه داده کاوی، یازدهمین کنفرانس علوم و تکنولوژی، مشهد، ایران، بهمن 95.

[17] Guru Rao, C.V., Sreenivasa Rao, M., (2016), Cluster Analysis of Medical Research Data using R, Global Journal of Computer Science and Technology: C Software & Data Engineering, Vol 16, 17–22.

[18] Karim Khani Zand, H., (2015), A COMPARITIVE SURVEY ON DATA MINING TECHNIQUES FOR BREAST CANCER DIAGNOSIS AND PREDICTION, Indian Journal of Fundamental and Applied Life Sciences, Vol 5,4330-4339.

[19] Boughorbel, S., Al-Ali, R., Elkum, N., (2016), Model Comparison for Breast Cancer Prognosis Based on Clinical Data, PLOS ONE, 15-1.

[20] Han, J., Jian, P., (2011), Data mining: concepts and techniques, Elsevier.

[21] 5. L. Breiman, J. H. Friedman. (1984),“Classification and regression trees,” Monterey.

 [22] حقیقی. مهری،"داده کاوی و یادگیری ماشین: مروری بر دسته بندی کننده ها"، کنفرانس بین المللی یافته های نوین، تهران، ایران، شهریور 94.

[23] مرتضی‌پور.رضا، مطلق‌زاده،مهسان، استفاده از شبکه بیزین در طبقه‌بندی، چهارمین کنفرانس مهندسی برق و الکترونیک، دانشگاه آزاد گناباد، شهریور،1391.

[24] نظری. احمد،"ارائه الگوریتم ترکیبی بهینه بردار ماشین پشتیبان و جنگل تصادفی در تشخیص به موقع بیماری های قلبی"، کنفرانس بین المللی پژوهش در علوم و تکنولوژی، مالزی، اذز 94.

[25] Y. Liu and P. Zhao and et al. (2015), “A Boosting Algorithm for Item Recommendation with Implicit Feedback,” Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI 2015)

[26] Krishnaiah, V.,   Narsimha,G., Subhash Chandra, N., (2016), Heart Disease Prediction System using Data Mining Techniques and Intelligent Fuzzy Approach: A Review, International Journal of Computer Applications, Vol 136, No 2, 43–51.

[27] سعادت. محمد، زمانی بروجنی. فرساد،"مروری بر روش های بهبود کارایی تکنیک جنگل تصادفی"، اولین همایش ملی فناوری اطلاعات، ارتباطات و محاسبات نرم، دانشگاه آزاد خوراسگان، اصفهان، ایران. اردیبهشت 1395.

[28] Han, Y.  Liu, X.  Sun. (2013), “A scalable random forest algorithm based on MapReduce,” Software Engineering and Service Science (ICSESS), 2013 4th IEEE International Conference on, pp.849-852.

[29] Parijaee Moghaddam. A and Mousavi. S , Learning Decision Tree Using Neural Network for Stability and Flexibilit, Iranian Journal of Medical Informatics, vol. 1, no. 3, pp. 39-44, 2013.

[30] T. M. Khoshgoftar, M. Golawala, and J. Van Hulse. (2007), “An Empirical Study of Learning from Imbalanced Data Using Random Forest.,” presented at the 19th IEEE Conference on Tools with Artificial Intelligence.

[31]Zheng, G. (2017), Logistic Regression, Model Selection, and Cross Validation, personal.umich.edu, March. 25.

[32] Soundarya, M., Balakrishnan, R., (2014), Survey on Classification Techniques in Data mining, International Journal of Advanced Research in Computer and Communication Engineering, Vol. 3, 7550-7552.

[33] Zheng, G. Logistic Regression, Model Selection, and Cross Validation, personal.umich.edu, March. 25, 2017.

[34] Street, W., Wolberg, W., Mangasarian, O., (1992), Nuclear Feature Extraction For Breast Tumor Diagnosis. International Symposium on Electronic ImagingScience and Technology, VOL, 1905, 861-870. 

[35] Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

 [36] Christian, S.,  Winston,W., Zappa, Ch., (2011), Data Analysis and Decision Making, Forth edition, 14-16.