Risqa Ciety Windari
Algoritma data mining adalah metode atau prosedur yang digunakan untuk mengekstraksi pola, informasi, atau pengetahuan dari kumpulan data yang besar dan kompleks. Dalam konteks ini, "data mining" mengacu pada proses menggali informasi yang berguna dan tersembunyi dari data yang ada, menggunakan teknik dari statistika, machine learning, dan basis data.
Mengelompokkan data (clustering)
Memprediksi nilai atau label (classification & regression)
Menemukan pola tersembunyi (association rules)
Mendeteksi anomali atau outlier
| Tipe Masalah | Nama Algoritma | Penjelasan Singkat |
|---|---|---|
| Klasifikasi | Decision Tree, Naive Bayes, KNN, SVM | Menentukan label kategori suatu data |
| Klastering | K-Means, DBSCAN, Hierarchical Clustering | Mengelompokkan data yang mirip |
| Asosiasi | Apriori, FP-Growth | Menemukan aturan asosiasi (contoh: market basket analysis) |
| Regresi | Linear Regression, Regression Tree | Memprediksi nilai kontinu (seperti harga, suhu) |
| Deteksi Anomali | Isolation Forest, LOF (Local Outlier Factor) | Mendeteksi data yang menyimpang dari pola umum |
Contoh dataset: Iris Dataset (Klasifikasi Bunga)
Unduh dataset dari Kaggle (atau nanti bisa langsung upload ke Colab).
Untuk Google Colab: https://colab.research.google.com
Jika menggunakan Google Colab:
from google.colab import files uploaded = files.upload()
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
df = pd.read_csv("Iris.csv") # Ganti nama file sesuai dataset yang diunggah df.head()
df.info() df.describe() df['Species'].value_counts()
sns.pairplot(df, hue="Species") plt.show()
Pisahkan fitur dan label:
X = df.drop(['Id', 'Species'], axis=1) y = df['Species']
Split data:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = DecisionTreeClassifier() model.fit(X_train, y_train)
y_pred = model.predict(X_test) print("Akurasi:", accuracy_score(y_test, y_pred)) print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred)) print("Classification Report:\n", classification_report(y_test, y_pred))
from sklearn.tree import plot_tree plt.figure(figsize=(12,8)) plot_tree(model, feature_names=X.columns, class_names=model.classes_, filled=True) plt.show()
Dengan langkah di atas, kamu telah berhasil:
Mengambil dataset dari Kaggle
Melakukan klasifikasi menggunakan Decision Tree
Mengevaluasi hasilnya
Ganti DecisionTreeClassifier() dengan:
KNeighborsClassifier() untuk KNN
GaussianNB() untuk Naive Bayes
RandomForestClassifier() untuk Random Forest