Prediksi Peluang Diterima S2 Dengan Regresi

Aviolla Terza Damaliana

Sosial Media


0 orang menyukai ini
Suka

Summary

Portofolio ini menggunakan data kaggle.com dengan tujuan memprediksi peluang mahasiswa S1 dapat diterima sekolah Pasca Sarjana S2 dengan menggunakan Regresi Linier, dengan tools Google Collaboratory. Variabel feature yang digunakan adalah GRE Score, TOEFL Score, University Rating, SOP, LOR, CGPA, dan Research, sedangkan variabel target yang digunakan adalah Chance of Admit. Kemudian diperoleh hasil nilai MSE dan RMSE yang mendekati 0, sehingga dapat diartikan bahwa nilai prediksi mendekati nilai aktual dari peluang mahasiswa S1 dapat diterima sekolah Pasca Sarjana S2 dengan menggunakan Regresi Linier.

Description

  • Langkah 1 : Memasukkan Data ke Google Collaboratory

Setelah mendownload data di kaggle, kemudian data diupload ke google drive dan mengkoneksikan data di google drive ke Google Collaboratory.

 

  • Langkah 2 : Pre-Processing Data

Portofolio ini menggunakan library numpy, matplotlib.pyplot, dan seaborn.

Pada langkah Pre-Processing Data ini tidak ditemukan adanya missing value, yang dapat dilihat dari output berikut.

Adapun jenis data yang digunakan pada portofolio ini sebagai berikut.

 

  • Langkah 3 : Eksploratory Data Analysis

Memulai dengan mendeskripsikan data terlebih dahulu, sehingga diperoleh deskripsi data sebagai berikut.

Dapat dilihat pada sebaran data dari variabel target dibawah ini bahwa peluang mahasiswa S1 dapat diterima sekolah Pasca Sarjana lebih besar dari 0.7.

Adapun jika dilihat lebih detail, deskripsi data variabel target memiliki peluang mahasiswa S1 dapat diterima sekolah Pasca Sarjana lebih besar dari 0.73.

Deskripsi dari data variabel Research diperoleh bahwa 54.8% dari data mahasiswa S1 dapat diterima sekolah Pasca Sarjana pernah melakukan research, sisanya 45.2% belum pernah melakukan research. Dengan ditunjukkan pada diagram Pie berikut.

Deskripsi dari data variabel Rating University diperoleh bahwa University Rating terbanyak adalah ke-3, kemudian urut dari yang terbesar kedua adalah University Rating ke-2, ke-4, ke-5 dan ke-1.Dengan ditunjukkan pada diagram Batang berikut.

Deskripsi dari data variabel SOP diperoleh bahwa nilai SOP terbesar dengan jumlah 70 satuan terdapat pada 3.5 dan 4.0.Dengan ditunjukkan pada diagram Batang berikut.

Deskripsi dari data variabel LOR diperoleh bahwa nilai LOR terbesar dengan jumlah 85 satuan terdapat pada 3.0.Dengan ditunjukkan pada diagram Batang berikut.

Berikut hubungan antara variabel target dengan featurenya dengan Scatter Plot.

Berikut hubungan antara variabel target dengan featurenya dengan nilai korelasi diperoleh bahwa nilai korelasi tertinggi pada variabel CGPA dengan nilai korelasi 0.873289 dan terendah pada variabel research dengan nilai korelasi 0.553202. Dengan ditunjukkan pada diagram Batang berikut.

 

  • Langkah 4 : Memisahkan Data Training dan Data Testing

Langkah selanjutnya memisahkan 80% data training dan 20% data testing sebagai berikut.

 

  • Langkah 5 : Memodelkan Data

Kemudian memodelkan data sehingga diperoleh hasil sebagai berikut.

 

  • Langkah 6 : Evaluasi Model

Dilakukan evaluasi model sebagai berikut, dengan memperoleh hasil bahwa nilai MSE sebesar 0.0048 dan nilai RMSE sebesar 0.07.

Dimana nilai MSE dan RMSE yang mendekati 0, dapat diartikan bahwa nilai prediksi mendekati nilai aktual dari peluang mahasiswa S1 dapat diterima sekolah Pasca Sarjana dengan menggunakan Regresi Linier.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Master Class On Job Training: Data Science Intensive Program Batch 33