DETEKSI PEROKOK MELALUI BIOSIGNAL

Andreas Parluhutan Rumahorbo

Sosial Media


0 orang menyukai ini
Suka

Summary

Tingginya mobilitas masyarakat di ruang publik membuat interaksi manusia semakin padat. Perokok adalah orang yang sering ditemui pada padatnya interaksi tersebut. Pengguna fasilitas umum maupun privat terkadang menghindari asap rokok demi menjaga kesehatan. Sehingga pada studi kasus ini dilakukan prediksi berdasarkan model machine learning untuk mendeteksi kemungkinan seseorang adalah perokok aktif atau tidak.Penelitian ini menggunakan metode klasifikasi yang terdapat pada machine learning guna membuat suatu model. Penelitian ini melakukan 4 tahapan dimana peneliti melakukan tahap preparasi data, EDA, visualisasi data (feature dan class-nya), membangun model hingga mengevaluasi nilai accuracy, precision, recall dan f1-score. Hasil penelitian menunjukkan model dengan nilai accuracy tertinggi adalah Random Forest dengan nilai accuracy sebesar 82.8 %. Sedangkan Decision Tree sebesar 77.9%, Logistic Regression sebesar 70.6%, MLP sebesar 74.3%, KNN sebesar 70.09%, XGB sebesar 75.8%, dan SVR sebesar 72.5%

Description

Perilaku merokok telah menjadi perilaku yang tidak menyenangkan bagi sebagian besar masyarakat. Perilaku merokok merupakan salah satu dari aspek tingkah laku yang kompleks karena memberikan dampak biopsikososial yang cukup signifikan, dalam hal ini perilaku merokok telah berdampak pada kondisi fisiologis, kognitif, psikologis hingga lingkungan sosial. Secara kognitif, para perokok tidak memperlihatkan keyakinan yang tinggi terhadap bahaya akan asap rokok. Terdapat dua jenis perokok, yaitu perokok aktif dan pasif. Meskipun risiko kesehatan lebih tinggi pada perokok aktif namun perokok pasif yang secara tidak sengaja menghirup asap rokok, secara tidak langsung juga telah turut memasukkan zat-zat berbahaya ke dalam tubuhnya.Beberapa penelitian melaporkan bahwa sekitar 20% - 30% risiko kesehatan seperti penyakit paru-paru juga dialami oleh perokok pasif. 

 

Interaksi antara perokok aktif dengan perokok pasif ini biasanya terjadi di tempat-tempat umum, seperti di stasiun kereta api, terminal, di dalam bus kota, dan sebagainya. 1 Tingginya mobilitas masyarakat di ruang publik membuat interaksi manusia semakin padat sehingga tidak pernah lepas dari keberadaan asap rokok. Selain di tempat publik, perokok juga termasuk orang yang sering dihindari saat berada di ruangan pribadi seperti rumah, kantor, kamar dan sebagainya. Bodysignal atau Bio-signal merupakan suatu fitur khusus yang berasal dari aktivitas tubuh manusia, sebagai suatu mekanisme reaksi dari aktivitas-aktivitas biologis yang terjadi dalam tubuh. Data biosignal dapat dimanfaatkan untuk mendeteksi kemungkinan seseorang perokok atau bukan. Pada penelitian ini, dataset biosignal diambil dari kaggle. Dataset memiliki sejumlah fitur yang dapat dimanfaatkan untuk memprediksi seseorang terindikasi sebagai perokok atau tidak. Penelitian dilakukan dengan menerapkan salah satu algoritma dalam machine learning yaitu klasifikasi. Klasifikasi merupakan suatu teknik atau metode dalam machine learning, data akan dikelompokkan berdasarkan kelasnya dimana di dalamnya terdapat label atau target. Terdapat beberapa algoritma klasifikasi yang digunakan dalam penelitian ini antara lain: Decision Tree. K-Nearest Neighbors (KNN), Logistic Regression, Multilayer Perceptron (MLP), Random Forest, SVM dan Extreme Gradient Boosting (XGB)

 

  1. Exploratory Data 

    a. Import Library yang diperlukan dalam analisis.


    b.Shape
    Melihat Shape Pada Dataset adalah dengan perintah df.shape
    c. Info
    Cek Data Type Dan Menunjukkan Semua Kolom dengan perintah  df.info()
     
  2. Preprocessing Data
    Setelah dilakukan exploratory data analysis hingga preprocessing dengan melakukan cross check pada tipe data dan kolom, tidak ditemukan missing value dan outlier pada dataset. Adapun Hasil Output sebagai berikut.


    Hasil Output di atas Menunjukkan bahwa  tidak ada missing value
     
  3. Visualisasi Feature
    Pada tahapan ini dilakukan visualisasi beberapa feature yang dianggap penting yang terdapat pada dataset.

    a. Visualisasi Data Gender

    Gambar di atas menunjukkan  Visualisasi Data Gender Dengan Pie Chart. Grafik lingkaran di atas menunjukkan persentase gender antara laki-laki dan perempuan M (Male) sebanyak 63.6 % F (Female) sebanyak 36.4%

    b. Boxplot Persebaran Data Umur


    Gambar di atas menunjukkan  Visualisasi Distribusi Data Umur Dengan Boxplot.  Boxplot di atas menunjukkan mean = 40, min = 20, max = 85 dimana artinya adalah usia rata-rata yang ingin diidentifikasi perokok atau tidak perokok adalah 40 tahun. Usia minimal yang ingin diidentifikasi adalah 20 tahun. Usia maksimal yang ingin diidentifikasi adalah 85 tahun.

    c. Boxplot Persebaran Data Tinggi Badan


    Gambar di atas menunjukkan Visualisasi Distribusi Data Tinggi Badan Dengan Boxplot.  Boxplot di atas menunjukkan mean =164, min = 130, max = 190 dimana artinya adalah tinggi badan (height) rata-rata orang yang ingin diidentifikasi perokok atau tidak perokok adalah 164 tahun. Tinggi badan minimal yang ingin diidentifikasi adalah 130 cm. Tinggi badan maksimal yang ingin diidentifikasi adalah 190 cm.

    d. Boxplot Persebaran Data Berat Badan


    Gambar  di atas menunjukkan Visualisasi Distribusi Berat Badan Dengan Boxplot.  Boxplot di atas menunjukkan mean =65, min = 30, max = 135 dimana artinya adalah berat badan (weight) rata-rata orang yang ingin diidentifikasi perokok atau tidak perokok adalah 65 Kg. Berat badan minimal yang ingin diidentifikasi adalah 30 Kg. Berat badan maksimal yang ingin diidentifikasi adalah 135 kg.

    e. Pengelompokkan Data Perokok Dan Tidak Perokok Berdasarkan Usia


    Berdasarkan gambar di atas, hasil output saat melakukan identifikasi dan pengelompokkan data perokok (1) dan tidak perokok (0) adalah sebagai berikut: 

    ● Orang-orang yang tidak perokok (0) berdasarkan data tersebut berada pada usia rata-rata 46 tahun 
    ● Orang-orang yang perokok (1) berdasarkan data tersebut berada pada usia rata-rata 42 tahun

    f. Pengelompokkan Data Berdasarkan Feature Usia, Berat dan Umur

    Gambar di atas menunjukkan  Grafik Batang Perokok Dan Tidak Perokok Pada Laki-Laki dan Perempuan Berdasarkan Feature Usia, Berat Badan, dan Tinggi Badan
     
  4. Model dan Skor Klasifikasi
    Adapun hasil perhitungan precision, recall dan f1 score dari setiap model klasifikasi dengan melakukan pengujian pada masing-masing kelas (perokok dan tidak perokok). Berikut hasil evaluasi model untuk nilai precision, recall dan f1 score:
     


    Gambar  di atas menunjukkan  Hasil Output Perhitungan Nilai Accuracy Untuk Setiap Model Klasifikasi
     
  5. Precision, Recall dan F1 Score




    KESIMPULAN :

    Berdasarkan hasil evaluasi model, diperoleh algoritma atau model terbaik untuk melakukan prediksi perokok dan tidak perokok yaitu algoritma Random Forest. Pada studi kasus ini terdapat alasan mengapa Random Forest merupakan model terbaik yang menghasilkan nilai accuracy, precision, recall dan f1 score tertinggi. 
    1. Random forest mampu mengklasifikasi data yang memiliki atribut yang tidak lengkap 
    2. Random Forest dapat digunakan untuk klasifikasi dan regresi akan tetapi tidak terlalu bagus untuk regresi 
    3. Random Forest sangat cocok untuk pengklasifikasian data serta dapat digunakan untuk menangani data sampel yang banyak Beberapa feature penting yang mempengaruhi nilai accuracy saat evaluasi adalah jenis kelamin, GTP, hemoglobin dan tinggi badan.

    Referensi:
    Sari, A. T. O., Ramdhani, N., & Eliza, M. (2003). Empati dan perilaku merokok di tempat umum. Jurnal Psikologi, 30(2), 81-90.

    Ahmad, A. (2017). Mengenal artificial intelligence, machine learning, neural network, dan deep learning. J. Teknol. Indones, 3..

Informasi Course Terkait
  Kategori: Artificial Intelligence
  Course: Machine Learning Dengan Scikit Learn Python