Kanda Januar Miraswan
Analisis data Telco Customer Churn bertujuan untuk memahami faktor-faktor yang mempengaruhi pelanggan meninggalkan layanan telekomunikasi suatu perusahaan. Dalam era persaingan yang ketat, memahami pola churn pelanggan menjadi sangat krusial bagi perusahaan telekomunikasi untuk mengembangkan strategi retensi yang efektif. Melalui analisis ini, perusahaan dapat mengidentifikasi karakteristik pelanggan yang berisiko churn, mengevaluasi dampak berbagai faktor seperti kualitas layanan, harga, dan dukungan pelanggan, serta merancang program retensi yang tepat sasaran. Dengan demikian, analisis churn tidak hanya membantu mengurangi tingkat churn tetapi juga meningkatkan kepuasan dan loyalitas pelanggan secara keseluruhan.
Analisis data Telco Customer Churn bertujuan untuk memahami faktor-faktor yang mempengaruhi pelanggan meninggalkan layanan telekomunikasi suatu perusahaan. Dalam era persaingan yang ketat, memahami pola churn pelanggan menjadi sangat krusial bagi perusahaan telekomunikasi untuk mengembangkan strategi retensi yang efektif. Melalui analisis ini, perusahaan dapat mengidentifikasi karakteristik pelanggan yang berisiko churn, mengevaluasi dampak berbagai faktor seperti kualitas layanan, harga, dan dukungan pelanggan, serta merancang program retensi yang tepat sasaran. Dengan demikian, analisis churn tidak hanya membantu mengurangi tingkat churn tetapi juga meningkatkan kepuasan dan loyalitas pelanggan secara keseluruhan.
Data Understanding
Dataset yang digunakan adalah data Telco Customer Churn dengan nama file telco-churn.csv dari tautan https://www.kaggle.com/datasets/blastchar/telco-customer-churn. Dataset ini digunakan untuk memprediksi perilaku untuk mempertahankan pelanggan (Customer Retention Program) pada suatu perusahaan telekomunikasi (telco), dari Kumpulan Data Contoh IBM.
Setiap baris mewakili pelanggan, setiap kolom berisi atribut dari pelanggan, kumpulan data mencakup informasi tentang:
Ekspolrasi Data
Terdapat 7043 baris dan 21 kolom pada dataset tersebut
Dapat dilihat, pada kolom customer ID, semua unique, selanjutnya rata rata independent variable dengan jumlah unique 2 hingga 4, kecuali tenure monthly charges dan total charges.
Kolom churn berisi kelas / dependent variable dengan jumlah unique 2 yaitu “Yes” dan “No”, terdapat 1869 customer yang churn dari 7043 customer secara keseluruhan.
Ada data yang tidak sesuai deskripsi fitur, yaitu 'TotalCharges' seharusnya bertipe data angka (float64), bukan string/object. Setelah diperiksa, ternyata ada data yang kosong ' ' pada kolom tersebut (missing value).
Data Cleaning
Setelah dilakukan ekspolrasi data, terdapat missing values pada pada kolom 'TotalCharges', maka data kosong tersebut diganti angka 0, kemudian tipe data diganti menjadi float64
Tidak ada data yang terduplikasi
Kemudian kolom CustomerID di drop, karena semua data unique, sehingga sekarang hanya terdapat 7043 baris dan 20 kolom pada dataset tersebut
Exploratory Data Analysis
Dilakukan pemetaan setiap kolom terhadap dependent variable, dengan menggunakan pie chart atau histogram data
Pie Chart Kolom Gender | Pie Chart Kolom SeniorCitizen |
Pie Chart Kolom Partner | Pie Chart Kolom Dependents |
Histogram Kolom Tenure | Pie Chart Kolom PhoneService
|
Pie Chart Kolom MultipleLines | Pie Chart Kolom InternetService |
Pie Chart Kolom OnlineSecurity | Pie Chart Kolom OnlineBackup |
Pie Chart Kolom DeviceProtection | Pie Chart Kolom TechSupport |
Pie Chart Kolom StreamingTV | Pie Chart Kolom StreamingMovie
|
Pie Chart Kolom Contract | Pie Chart Kolom PaperlessBilling |
Pie Chart Kolom PaymentMethod | Histogram Kolom MonthlyCharges |
•Berdasarkan hasil visualisasi per fitur, terdapat beberapa 3 kelompok fitur berdasarkan tingkat signifikansi:
▫Kurang Berpengaruh : gender, PhoneService, MultipleLines, StreamingTV, StreamingMovies
▫Cukup Berpengaruh : SeniorCitizen, Partner, Dependents, PaperlessBilling
▫Berpengaruh : tenure, InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, Contract, PaymentMethod, MonthlyCharges, TotalCharges
Data Preprocessing
Berdasarkan EDA yang telah dilakukan, maka fitur yang kurang berpengaruh akan didrop (tidak dipakai) dalam modeling
Selanjutnya dilakukan pemisahan kolom antara independent variable dan dependent variable
Dilakukan encoding pada data kategorikal
Normalisasi data pada independent Variable
Encoding dependent variable menjadi 0 dan 1
Membagi data menjadi data train dan test dengan proporsi 75:25
Data Modeling
LogisticRegression Classifier
|
XGBoost Classifier
Kesimpulan
Dengan menggunakan data customer yang lainnya, model tersebut dapat digunakan untuk memprediksi potensi kecenderungan customer tersebut apakah akan churn atau tidak
Faktor yang paling berpengaruh adalah tenure, InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, Contract, PaymentMethod, MonthlyCharges, TotalCharges
Beberapa pertimbangan dalam memprediksi pelanggan dengan potensi churn yang tinggi:
▫tenure : pelanggan dengan masa kontrak yang masih baru, memiliki kecendrungan untuk melakukan churn
▫InternetService : pelanggan dengan kategori internet service "fiber optic" memiiki kencendrungan churn yang tinggi
▫OnlineSecurity, OnlineBackup, DeviceProtection, Contract : data customer dengan kategori "No" pada 4 fitur tersebut memilki kencendrungan churn yang tinggi
▫PaymentMethod : pelanggan dengan kategori "Electronic Check" memiiki kencendrungan churn yang tinggi
▫MonthlyCharges : pelanggan dengan biaya bulanan tinggi memiliki kencendrungan churn yang tinggi
▫TotalCharges : pelanggan dengan total biaya langganan yang rendah memiliki kencendrungan churn yang tinggi