Weight&Height: Linear Regression Visual & Analysis

Gybran Kalmando

Sosial Media


0 orang menyukai ini
Suka

Summary

Linear Regression adalah metode statistik yang digunakan untuk memodelkan hubungan linier antara satu atau lebih variabel independen (fitur) dengan variabel dependen (target). Dalam konteks regresi linier sederhana, kita memiliki satu fitur dan satu target, sedangkan dalam regresi linier berganda, kita memiliki lebih dari satu fitur. Dengan menggunakan regresi linier, kita dapat mencoba memprediksi atau memahami bagaimana tinggi atau berat badan dapat berkorelasi dengan jenis kelamin (Sex) pada dataset ini. Model regresi linier dapat memberikan persamaan garis yang mencoba menjelaskan hubungan linier antara variabel-variabel tersebut.

Description

Impor Library dan Upload File:

  • Mengimpor library yang dibutuhkan seperti pandas, matplotlib, dan scikit-learn.
  • Menggunakan files.upload() untuk mengunggah file dataset 'Weight-Height.csv' dari lokal ke Google Colab.

Muat Data ke dalam DataFrame:

  • Menggunakan pd.read_csv untuk membaca dataset 'Weight-Height.csv' ke dalam DataFrame df.

Pilih Fitur dan Target:

  • Memilih kolom 'Height' dan 'Weight' sebagai fitur (X).
  • Memilih kolom 'Sex' sebagai target (y).

Konversi Variabel Kategorikal 'Sex':

  • Menggunakan pd.get_dummies untuk mengonversi variabel kategorikal 'Sex' menjadi angka (0 untuk Female, 1 untuk Male).

Bagi Data Menjadi Set Pelatihan dan Pengujian:

  • Menggunakan train_test_split untuk membagi data menjadi set pelatihan dan pengujian.

Buat dan Latih Model Regresi Linier:

  • Membuat model regresi linier menggunakan LinearRegression dari scikit-learn.
  • Melatih model menggunakan data pelatihan (X_train dan y_train).

Buat Prediksi:

  • Menggunakan model yang sudah dilatih untuk membuat prediksi pada data pengujian (X_test).

Evaluasi Model:

  • Menggunakan Mean Squared Error (MSE) untuk mengevaluasi kinerja model pada data pengujian.

Visualisasi Hasil:

  • Membuat scatter plot yang membandingkan nilai aktual ('Actual') dan prediksi ('Predicted') untuk variabel 'Height' terhadap variabel 'Sex' yang telah dikonversi menjadi angka (0: Female, 1: Male).
     

Kesimpulan:

  • Model regresi linier tidak sesuai untuk memprediksi variabel kategorikal seperti 'Sex'. Sebaiknya, gunakan model klasifikasi seperti regresi logistik.
  • Penilaian model menggunakan Mean Squared Error (MSE), yang sebenarnya tidak cocok untuk klasifikasi, karena MSE biasanya digunakan untuk regresi.
  • Visualisasi dengan scatter plot dapat membantu melihat sejauh mana prediksi model mendekati nilai sebenarnya.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Data Science