ANALISIS PENGARUH METODE COMBINE SAMPLING DALAM CHURN PREDICTION UNTUK PERUSAHAAN TELEKOMUNIKASI

Authors

  • Angelina Sagita Sastrawan Program Studi Teknik Informatika, Fakultas Teknik Informatika Institut Teknologi Telkom, Bandung
  • ZK Abdurahman Baizal Program Studi Ilmu Komputasi, Fakultas Sains Intitut Teknologi Telkom, Bandung
  • Moch. Arif Bijaksana Program Studi Teknik Informatika, Fakultas Teknik Informatika Institut Teknologi Telkom, Bandung

Abstract

Churn prediction pada pelanggan telekomunikasi merupakan upaya memprediksi/mengklasifikasi pelanggan jasa telekomunikasi yang berhenti atau berpindah berlangganan dari suatu operator ke operator yang lain. Namun dataset pada kasus churn ini biasanya memiliki kelas yang imbalance dimana jumlah instance suatu kelas (kelas active atau tidak churn atau mayor atau negatif) jauh lebih besar dari jumlah kelas yang lain (kelas churn atau minor atau positif). Akibatnya, kebanyakan classifier cenderung memprediksi kelas mayor dan mengabaikan kelas minor sehingga akurasi kelas minor sangat kecil. Salah satu pendekatan yang dilakukan untuk menangani permasalahan ini adalah dengan memodifikasi distribusi instances dari dataset yang digunakan atau yang lebih dikenal dengan pendekatan sampling-based. Teknik resampling ini meliputi oversampling, under-sampling, dan combine-sampling. Analisis yang dilakukan pada penelitian ini adalah mengetahui bagaimana pengaruh metode combine sampling yang digunakan terhadap akurasi prediksi data churn dengan melakukan penghitungan akurasi model churn prediction yang dinyatakan dalam bentuk lift curve, top decile dan gini coefficient serta f-measure untuk penghitungan akurasi prediksi data sebagai data yang imbalance. Hasil yang didapat dari penelitian menunjukkan bahwa metode combine sampling belum sesuai diterapkan pada data churn, karena cenderung masih menghasilkan nilai top decile yang kecil. Tetapi secara umum metode combine sampling ini mampu meningkatkan akurasi untuk memprediksi data minor. Dengan penerapan metode combine sampling, data churn yang memiliki tingkat imbalance yang besar dapat diklasifikasi tanpa mengorbankan data minor yang menjadi fokus penelitian. Metode combine sampling yang digunakan juga memiliki hasil evaluasi yang berbeda terhadap dataset sebagai data churn dan sebagai data
imbalance.

References

Batista, Gustavo E.A.P.A., Prati, Ronaldo C., and Maria Carolina., (2004), “A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data”. SIGKDD Explorations 6(1): 20-29

Cardell, Scott., Golovnya, Mikhail., Steinberg, Dan., (2003)., Churn Modeling for Mobile Telecommunications. Salford Systems. California.

Chawla, Bowyer, Hall, and Kegelmeyer. (2002) “SMOTE : Synthetic Minority Oversampling Technique”. Journal of Artificial Intelligence Research 16. Page 321-357.

Han, Hui., Wang, Wen-Yuan., Mao, Bing-Huan., (2005), ”Borderline-SMOTE A New Over-Sampling Method in Imbalanced Data Sets Learning”. Beijing. China

Lemmens, Aurelie., Croux, Christophe., (2006).,”Bagging and Boosting Classification Trees”. Journal of Marketing Research, 43(2) 276-286.

Laurikkala, Jorma. (2001)”Improving Identification of Difficult Small Classes by Balancing Class Distribution”. University of Tampere. Finland..

Machado, Emerson Lopes., Ladeira, Marcelo., (2007) “Dealing With Rare Cases and Avoiding Overfitting : Combining Cluster Based Oversampling and SMOTE”. Department of Computer Science. Brazil.

Published

2015-07-30

Issue

Section

Seminar Nasional Informatika 2008