Analisis Dataset Heart Failure Clinical Records

M.Rafly Rahman

Sosial Media


0 orang menyukai ini
Suka

Summary

Dataset "Heart Failure Clinical Records" terdiri dari data kesehatan pasien dengan 13 fitur. Proyek ini bertujuan untuk mengeksplorasi data, menganalisis korelasi antar variabel, dan memvisualisasikan distribusi data untuk memahami faktor-faktor yang berkontribusi terhadap peristiwa kematian (DEATH_EVENT).

 

Description

Dataset Heart Failure Clinical Records adalah kumpulan data kesehatan pasien yang mencakup 13 fitur penting, seperti usia, tekanan darah tinggi, kadar natrium serum, dan fraksi ejeksi. Proyek ini bertujuan untuk melakukan eksplorasi mendalam terhadap data, menganalisis hubungan antar variabel secara statistik, dan menyajikan visualisasi distribusi data yang informatif. Dengan pendekatan ini, kami berharap dapat mengidentifikasi faktor-faktor utama yang secara signifikan mempengaruhi terjadinya peristiwa kematian (DEATH_EVENT) pada pasien, serta memberikan wawasan yang bermanfaat bagi pengelolaan risiko kesehatan kardiovaskular.

 

Langkah Implementasi dan Penerapan Kode

1. Mengunduh dan Membaca Dataset

Hasil:

Dataset berisi 299 baris dan 13 kolom, semuanya bertipe numerik. Contoh data dapat divisualisasikan menggunakan format tabel berwarna gradasi merah.

2. Statistik Deskriptif

Hasil Ringkasan:

Usia: Rata-rata 60.83, nilai maksimum 95.

Creatinine Phosphokinase: Rata-rata 581.83, maksimum 7861.

Tidak ada nilai yang hilang.

Hasil: Dataset tidak memiliki nilai yang hilang.

 

3. Identifikasi dan Konversi Variabel Kategorikal

Hasil: Variabel kategorikal diubah menjadi tipe category, seperti sex, smoking, dan anaemia. Hal ini mengurangi penggunaan memori.

 

4. Analisis Korelasi Antar Variabel

4.1 Korelasi Numerik

Hasil:

Korelasi antara fitur-fitur seperti serum_creatinine (positif) dan ejection_fraction (negatif) terhadap DEATH_EVENT dapat diidentifikasi dengan visualisasi heatmap.

4.2 Korelasi Kategorikal dengan Cramer’s V

from scipy.stats import chi2_contingency

 

 

5. Visualisasi Distribusi Data

 

5.1Distribusi frekuensi: Variabel Kategorikal

,

5.2 Heart failure among gender based on anaemia and diabetes

 

Kesimpulan

Korelasi: serum_creatinine dan ejection_fraction memiliki korelasi signifikan terhadap risiko kematian.

Distribusi Data: Pasien yang meninggal cenderung memiliki usia lebih tinggi, level serum_creatinine yang lebih tinggi, dan fraksi ejeksi yang lebih rendah.

Penggunaan Categorical Encoding: Mengoptimalkan tipe data kategorikal membantu analisis lebih efisien.

 

Informasi Course Terkait
  Kategori: Algoritma dan Pemrograman
  Course: Data Science SIB Batch 7