Foto User
Algoritma Data Mining

Risqa Ciety Windari

Sosial Media


0 orang menyukai ini
Suka

Summary

Algoritma data mining adalah metode atau prosedur yang digunakan untuk mengekstraksi pola, informasi, atau pengetahuan dari kumpulan data yang besar dan kompleks. Dalam konteks ini, "data mining" mengacu pada proses menggali informasi yang berguna dan tersembunyi dari data yang ada, menggunakan teknik dari statistika, machine learning, dan basis data.

๐Ÿ” Tujuan Utama dari Algoritma Data Mining:

Mengelompokkan data (clustering)

Memprediksi nilai atau label (classification & regression)

Menemukan pola tersembunyi (association rules)

Mendeteksi anomali atau outlier

๐Ÿ’ก Contoh Algoritma Data Mining Populer:

Tipe MasalahNama AlgoritmaPenjelasan Singkat
KlasifikasiDecision Tree, Naive Bayes, KNN, SVMMenentukan label kategori suatu data
KlasteringK-Means, DBSCAN, Hierarchical ClusteringMengelompokkan data yang mirip
AsosiasiApriori, FP-GrowthMenemukan aturan asosiasi (contoh: market basket analysis)
RegresiLinear Regression, Regression TreeMemprediksi nilai kontinu (seperti harga, suhu)
Deteksi AnomaliIsolation Forest, LOF (Local Outlier Factor)Mendeteksi data yang menyimpang dari pola umum

Description

๐Ÿ”น 1. Pilih Dataset dari Kaggle

Contoh dataset: Iris Dataset (Klasifikasi Bunga)

Unduh dataset dari Kaggle (atau nanti bisa langsung upload ke Colab).

๐Ÿ”น 2. Buat Notebook Baru di Jupyter / Google Colab

Untuk Google Colab: https://colab.research.google.com

๐Ÿ”น 3. Upload Dataset ke Notebook

Jika menggunakan Google Colab:

 

from google.colab import files uploaded = files.upload()

๐Ÿ”น 4. Import Library yang Dibutuhkan

 

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

๐Ÿ”น 5. Load Dataset

 

df = pd.read_csv("Iris.csv")  # Ganti nama file sesuai dataset yang diunggah df.head()

๐Ÿ”น 6. Eksplorasi Data

 

df.info() df.describe() df['Species'].value_counts()

๐Ÿ”น 7. Visualisasi Data (Opsional)

 

sns.pairplot(df, hue="Species") plt.show()

๐Ÿ”น 8. Persiapan Data

Pisahkan fitur dan label:

 

X = df.drop(['Id', 'Species'], axis=1) y = df['Species']

Split data:

 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

๐Ÿ”น 9. Model Klasifikasi (Contoh: Decision Tree)

 

model = DecisionTreeClassifier() model.fit(X_train, y_train)

๐Ÿ”น 10. Evaluasi Model

 

y_pred = model.predict(X_test) print("Akurasi:", accuracy_score(y_test, y_pred)) print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred)) print("Classification Report:\n", classification_report(y_test, y_pred))

๐Ÿ”น 11. Visualisasi Pohon Keputusan (Opsional)

 

from sklearn.tree import plot_tree plt.figure(figsize=(12,8)) plot_tree(model, feature_names=X.columns, class_names=model.classes_, filled=True) plt.show()

๐Ÿš€ Selesai!

Dengan langkah di atas, kamu telah berhasil:

Mengambil dataset dari Kaggle

Melakukan klasifikasi menggunakan Decision Tree

Mengevaluasi hasilnya

๐Ÿ” Alternatif Algoritma

Ganti DecisionTreeClassifier() dengan:

KNeighborsClassifier() untuk KNN

GaussianNB() untuk Naive Bayes

RandomForestClassifier() untuk Random Forest

Informasi Course Terkait
  Kategori: Algoritma dan Pemrograman
  Course: Basic Cybersecurity 10-12