Integrasi Bagging dan Greedy Forward Selection pada Prediksi Cacat Software dengan Menggunakan Naive Bayes

Kualitas software ditemukan pada saat pemeriksaan dan pengujian. Apabila dalam pemeriksan atau pengujian tersebut terdapat cacat software maka hal tersebut akan membutuhkan waktu dan biaya dalam perbaikannya karena biaya untuk estimasi dalam memperbaiki software yang cacat dibutuhkan biaya yang mencapai 60 Miliar pertahun. Naive bayes merupakan algoritma klasifikasi yang sederhana, mempunya kinerja yang bagus dan mudah dalam penerapannya, sudah banyak penelitian yang menggunakan algoritma naive bayes untuk prediksi cacat software yaitu menentukan software mana yang masuk kategori cacat dan tidak cacat pada. Dataset NASA MDP merupakan dataset publik dan sudah banyak digunakan dalam penelitian karena sebanyak 64.79% menggunakan dataset tersebut dalam penelitian prediksi cacat software . Dataset NASA MDP memiliki kelemahan adalah kelas yang tidak seimbang dikarenakan kelas mayoritas berisi tidak cacat dan minoritas berisi cacat dan kelemahan lainnya adalah data tersebut memiliki dimensi yang tinggi atau fitur-fitur yang tidak relevan sehingga dapat menurunkan kinerja dari model prediksi cacat software . Untuk menangani ketidakseimbangan kelas dalam dataset NASA MDP adalah dengan menggunakan metode ensemble (bagging), bagging merupakan salah satu metode ensemble untuk memperbaiki ketidakseimbangan kelas. Sedangkan untuk menangani data yang berdimensi tinggi atau fitur-fitur yang tidak memiliki kontribusi dengan menggunakan seleksi fitur greedy forward selection. Hasil dalam penelitian ini didapatkan nilai AUC tertinggi adalah menggunakan model naive bayes tanpa seleksi fitur adalah 0.713, naive bayes dengan greedy forward selection sebesar 0.941 dan naive bayes dengan greedy forward selection dan bagging adalah sebesar 0.923. Akan tetapi, dilihat dari rata-rata peringkat bahwa naive bayes dengan greedy forward selection dan bagging merupakan model yang terbaik dalam prediksi cacat software dengan rata-rata peringkat sebesar 2.550.

[1]  Li Zhang,et al.  Software Defect Prediction Using Non-Negative Matrix Factorization , 2011, J. Softw..

[2]  Romi Satria Wahono,et al.  A Systematic Literature Review of Software Defect Prediction: Research Trends, Datasets, Methods and Frameworks , 2015 .

[3]  Zhi-Hua Zhou,et al.  Ensemble Methods for Class Imbalance Learning , 2013 .

[4]  Taghi M. Khoshgoftaar,et al.  Comparing Boosting and Bagging Techniques With Noisy and Imbalanced Data , 2011, IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans.

[5]  Nanna Suryana,et al.  Combining Particle Swarm Optimization based Feature Selection and Bagging Technique for Software Defect Prediction , 2013 .

[6]  Qinbao Song,et al.  A General Software Defect-Proneness Prediction Framework , 2011, IEEE Transactions on Software Engineering.

[7]  Taghi M. Khoshgoftaar,et al.  Combining Feature Selection and Ensemble Learning for Software Quality Estimation , 2014, FLAIRS Conference.

[8]  Anju Saha,et al.  Open Issues in Software Defect Prediction , 2015 .

[9]  Bart Baesens,et al.  Benchmarking Classification Models for Software Defect Prediction: A Proposed Framework and Novel Findings , 2008, IEEE Transactions on Software Engineering.

[10]  Guangchun Luo,et al.  Transfer learning for cross-company software defect prediction , 2012, Inf. Softw. Technol..

[11]  Mohammad Alshayeb,et al.  Software defect prediction using ensemble learning on selected features , 2015, Inf. Softw. Technol..

[12]  Sabrina Ahmad,et al.  Metaheuristic Optimization based Feature Selection for Software Defect Prediction , 2014, J. Softw..

[13]  Phillip A. Laplante,et al.  A Literature Review of Research in Software Defect Reporting , 2013, IEEE Transactions on Reliability.

[14]  Chang-Hwan Lee A gradient approach for value weighted classification learning in naive Bayes , 2015, Knowl. Based Syst..