Ryan Salman Gunadharma
Data Kaggle https://www.kaggle.com/datasets/utkarshx27/survey-of-labour-and-income-dynamics?resource=download
File SLID.csv
https://colab.research.google.com/drive/1zzXJxWXus8q0gMysCN5au7PGURfRrI59?usp=sharing
Dataset "Survey of Labour and Income Dynamics" adalah dataset yang berisi informasi tentang pekerja. Dataset ini memiliki 6 kolom, yaitu:
klasifikasi data pada dataset "Survey of Labour and Income Dynamics" dengan 6 kolom: index, wages, education, age, sex, language
Hasil akhir dari klasifikasi data biasanya diukur menggunakan metrik akurasi. Akurasi mengukur sejauh mana model klasifikasi dapat memprediksi dengan benar kategori atau label dari data yang belum dilabeli.
Akurasi dihitung dengan membandingkan jumlah prediksi yang benar (prediksi yang sesuai dengan label yang sebenarnya) dengan total jumlah data yang diuji. Nilai akurasi berkisar antara 0 hingga 1, di mana 0 menunjukkan klasifikasi yang buruk atau tidak ada prediksi yang benar, sementara 1 menunjukkan klasifikasi yang sempurna atau semua prediksi benar.
kode
# Import library yang dibutuhkan
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# Load dataset
data = pd.read_csv("SLID.csv")
# Encoding kolom 'sex'
data['sex'] = data['sex'].map({'Male': 0, 'Female': 1})
# Hapus baris data yang memiliki nilai yang hilang (NaN)
data.dropna(inplace=True)
# Pisahkan atribut dan label
X = data.drop(['language'], axis=1)
y = data['language']
# Bagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Buat model Decision Tree
model = DecisionTreeClassifier()
# Latih model dengan data latih
model.fit(X_train, y_train)
# Lakukan klasifikasi pada data uji
y_pred = model.predict(X_test)
# Hitung akurasi klasifikasi
accuracy = accuracy_score(y_test, y_pred)
# Tampilkan akurasi
print("Akurasi:", accuracy)
penjelasan singkat mengenai langkah-langkah yang dilakukan dalam kode tersebut:
Import library yang dibutuhkan:
Load dataset:
Encoding kolom 'sex':
Hapus baris data yang memiliki nilai yang hilang (NaN):
Pisahkan atribut dan label:
Bagi data menjadi data latih dan data uji:
Buat model Decision Tree:
Latih model dengan data latih:
Lakukan klasifikasi pada data uji:
Hitung akurasi klasifikasi:
Tampilkan akurasi:
Hasil akhir klasifikasi diatas berupa 0,68 menunjukkan bahwa model berhasil memprediksi sekitar 68% dari data uji yang telah diklasifikasikan oleh model Decision Tree.