Poin Penting dalam Dasar Statistika Ilmu Komputer

Naufal Fawwazi

Sosial Media


0 orang menyukai ini
Suka

Summary

Portofolio ini berisikan resume berupa poin-poin penting dari materi pembelajaran Dasar-Dasar Statistika Ilmu Komputer. Sebagian besar materi yang saya uraikan di bawah ini telah saya ekstraksi pada bagian-bagian terpentingnya, sehingga mempermudah pembaca untuk memahami penjelasan untuk menemukan inti dari pembahasan tiap bab nya.

Description

Di sini saya hendak memberikan poin-poin penting dari yang sudah saya dapatkan dari materi pembelajaran Dasar-Dasar Statistika Ilmu Komputer. Sebagian besar materi yang saya uraikan di bawah ini telah saya ekstraksi pada bagian-bagian terpentingnya, sehingga mempermudah pembaca untuk memahami penjelasan untuk menemukan inti dari pembahasan tiap bab nya.

 

Pengenalan Statistika

Statistika (Statistics) pada dasarnya berbeda dari Statistik (Statistic). Statistika merupakan ilmu yang berhubungan dengan pengumpulan, analisis, penginterpretasian data serta melakukan prediksi, sementara Statistik adalah data, informasi yang didapat dari data serta perhitungan dari suatu alogitma tertentu, tetapi sebutan Statistik sudah umum digunakan untuk semua yang berkaitan dengan Statisika maupun Statistik.

2 Jenis Statistik berasarkan metodenya yaitu :

Statistik Deskriptif / Non-Eksperimental

Statistik deskriptif berkaitan dengan deskripsi data, menggambarkan informasi dari suatu data tersebut misalnya rata-rata, median, modus (mode), standard deviasi dan varian dari sekumpulan data yang dapat dianalisa dan divisualisasikan dengan tabel dan grafik agar mudah dibaca dan lebih bermakna.

Statistik Inferensial / Induktif / Probabilitas / Eksperimental.

Statistik inferensial digunakan untuk melakukan pengujian hipotesis, melakukan prediksi di masa depan dengan regresi, atau membuat klasifikasi suatu data dengan cara membuat model dan biasanya digunakan untuk melakukan pengambilan keputusan berdasarkan analisis data.

2 Jenis Statistik Inferensi berdasarkan parameternya yaitu :

Statistik Parametrik

Statistik ini digunakan untuk analisa dengan menggunakan parameter-parameter populasi seperti rata-rata dan sebagainya, biasanya digunakan untuk mengolah data kuantitatif (numerikal / diskrit / kontinu) yaitu data jenis interval atau ratio dengan memastikan distribusi data adalah distribusi normal atau mendekati normal.

Statistik Nonparametrik

Statistik ini digunakan untuk analisa yang tidak menggunakan parameter-parameter populasi biasanya digunakan untuk mengolah data kualitatif (kategorikal dan kategori bertingkat) yaitu data jenis nominal atau ordinal dengan distribusi data yang tidak diketahui atau tidak normal.

 

Peluang

Peluang adalah besarnya probabilitas atau kemungkinan berlangsungnya suatu kejadian. Konsep peluang ini tidak hanya diterapkan pada hal-hal yang bersifat sederhana seperti permainan dadu, melainkan pada hal yang lebih kompleks, seperti investasi, ramalan cuaca, asuransi, dan lainnya. Itulah mengapa, materi peluang perlu dikenalkan sejak di bangku sekolah.

Konsep Dasar Peluang

Konsep dasar peluang merupakan penjabaran lebih rinci tentang besaran-besaran apa yang harus kamu kuasai. Konsep ini diperoleh melalui percobaan. Adapun konsep dasar peluang meliputi ruang sampel dan titik sampel.

1. Ruang Sampel

Ruang sampel adalah himpunan semua kemungkinan hasil yang didapatkan dari suatu percobaan. Ruang sampel biasa dinyatakan sebagai . Contohnya, ruang sampel dari dadu adalah angka 1, 2, 3, 4, 5, dan 6.

2. Titik Sampel

Titik sampel adalah bagian dari ruang sampel. Contohnya adalah saat kamu melemparkan satu buah dadu, salah satu kemungkinan angka yang akan keluar adalah 4.

Statistik Nonparametrik

Peluang klasik adalah peluang pertama yang dipelajari oleh para matematikawan di abad ke-17 dan 18. Semua kejadian yang akan terjadi ditentukan melalui ruang sampel.  Pada peluang jenis ini, semua kejadian diasumsikan memiliki peluang yang sama untuk terjadi. Misalnya kamu mengambil satu kartu bridge, masing-masing kartu bridge yang kamu ambil memiliki peluang yang sama, yaitu 1⁄52.  Untuk menentukan peluang kejadian A, kamu harus membandingkan antara banyaknya kejadian A dan banyaknya keluaran pada ruang sampel. Secara matematis, kejadian A ditulis sebagai berikut.

 

Teori Bayesian

- Nama teorema Bayes diambil dari nama penemu teorema tersebut, yaitu Reverend Thomas Bayes (1702 – 1761)

- Teorema Bayes digunakan untuk menghitung probabilitas terjadinya suatu peristiwa, berdasarkan pengaruh yang didapat dari hasil observasi peristiwa sebelumya

- Teorema Bayes menyempurnakan teorema probabilitas bersyarat yang hanya dibatasi oleh 2 buah kejadian sehingga dapat diperluas untuk n buah kejadian

- Dikembangkan secara luas dalam statistika inferensia / induktif

- Aplikasi teorema Bayes banyak ditemukan pada bidang komputer cerdas sebagai salah satu dasar dari metode machine learning dan data mining

Sebelum melanjutkan penjelasan dari teorema bayes, mari mulai dari contoh kasus lempar koin. Kita asumsikan dari 5 lemparan, kita peroleh data berikut : H, T, T, T, T. (H untuk head dan T untuk tail). Pertanyaannya, seberapa yakin kita bahwa koin tersebut seimbang? Dalam bayesian, kita perlu memahami bagaimana suatu data diperoleh dan proses apa yang mendasarinya. Dalam hal ini serangkaian data keluaran pelemparan koin dapat kita modelkan dengan proses binomial. Kenapa? Dapat kita baca dari penjelasan wikipedia :

Dalam teori probabilitas dan statistika, distribusi binomial adalah distribusi probabilitas diskret jumlah keberhasilan dalam n percobaan ya/tidak (berhasil/gagal) yang saling bebas, dimana setiap hasil percobaan memiliki probabilitas p.

Jika kita analogikan bahwa hasil H (head) merupakan percobaan sukses, dan T (tail) merupakan percobaan gagal, tentu penjelasan diatas sangat cocok dengan kasus lemparan koin. Dalam kasus ini, kita memiliki 5 kali lemparan koin (n=5) dengan probabilitas sukses (p) yang tidak kita ketahui dan hasil lemparan adalah HTTTT (satu kali sukses). Jika dilihat dari kerangka proses standar (input, process, dan output), kita dapat menjelaskan bagaimana data dihasilkan:

- Input : n & p

- Proses : distribusi binomial(n, p)

- Output : HTTTT

 

Regresi

Linear Regression

Regresi Linier adalah salah satu teknik pemodelan yang paling dikenal. Regresi linier biasanya topik pertama yang dipilih orang saat mempelajari pemodelan prediktif. Hal ini diwakili oleh persamaan Y = a + bx, di mana a adalah intersep dan b adalah kemiringan garis. Persamaan ini dapat digunakan untuk memprediksi nilai variabel target berdasarkan variabel prediktor yang diberikan.

Polynomial Regression

Regresi Polinomial adalah persamaan regresi yang memiliki pangkat variabel bebas lebih dari 1. Persamaan di bawah ini merupakan persamaan polinomial: Y = a + b*x^2

Dalam teknik regresi ini, garis yang paling sesuai bukanlah garis lurus. Ini lebih merupakan kurva yang cocok dengan titik-titik data.

Stepwise Regression

Bentuk regresi ini digunakan ketika kita berurusan dengan beberapa variabel independen. Dalam teknik ini, pemilihan variabel bebas dilakukan dengan bantuan proses otomatis, yang tidak melibatkan campur tangan manusia. Regression pada dasarnya cocok dengan model regresi dengan menambahkan/mendrop kovariat satu per satu berdasarkan kriteria yang ditentukan. 

Ridge Regression

Regresi Ridge adalah teknik yang digunakan ketika data mengalami multikolinearitas. Dalam multikolinearitas, meskipun perkiraan kuadrat terkecil (OLS) tidak bias, variansnya besar yang menyimpang nilai yang diamati jauh dari nilai sebenarnya dengan menambahkan derajat bias.

Lasso Regression

Mirip dengan Regresi Ridge, Lasso (Least Absolute Shrinkage and Selection Operator) juga menilai ukuran absolut dari koefisien regresi. Selain itu, mampu mengurangi variabilitas dan meningkatkan akurasi model regresi linier. Regresi Lasso berbeda dari regresi ridge karena menggunakan nilai absolut dalam fungsi penalti, bukan kuadrat. 

ElasticNet Regression

ElasticNet adalah hibrid dari teknik Lasso dan Ridge Regression. Hal ini dilatih dengan L1 dan L2 sebelumnya sebagai regularizer. Elastic-net berguna ketika ada beberapa fitur yang berkorelasi. Lasso kemungkinan akan memilih salah satunya secara acak, sementara elastic-net kemungkinan akan memilih keduanya.

 

Variabel Random

Suatu variabel disebut acak jika nilai-nilai yang dimiliki merupakan kemungkinan atau kejadian acak. Dalam mendefinisikan suatu fungsi variabel acak, kita harus mampu memetakan semua kejadian yang terjadi secara tepat ke dalam suatu bilangan rill.

a. Variabel acak diskrit

Berhubungan dengan hasil sebuah peristiwa yang ruang sampelnya terhingga dan terhitung. Sedangkan distribusi peluangnya disebut distribusi peluang variabel acak diskrit. Variabel acak diskrit merupakan variabel acak yang memiliki sejumlah nilai yang dapat dihitung atau merupakan bilangan bulat positif dan tidak berbentuk pecahan.

Variabel acak diskrit jika digambarkan pada sebuah garis interval akan berupa sederetan titik-titik yang terpisah. Contohnya, jumlah siswa di kelas, jumlah mobil yang melewati jalan bebas hambatan setiap harinya dan lain sebagainya. Umumnya variabel diskrit berhubungan dengan pencacahan terhadap suatu objek atau indvidu. Contoh lihat tabel 1 di atas. Kita tidak mungkin mengatakan jumlah laki-laki = ½. atau ¼ .

b. Variabel acak kontinu

Didefinisikan sebagai suatu variabel yang nilai-nilainya berada dalam ruang sample takterhingga. Variabel ini bisa mempunyai sebuah harga dimana harga-harga x dibatasi oleh -¥ < X < ¥. Variabel acak kontinu dapat diilustrasikan sebagai titik-titik dalam sebuah garis. Variabel acak kontinu merupakan variabel acak yang memiliki nilai tak berhingga atau merupakan bilangan-bilangan yang tidak bulat maupun pecahan. Variabel acak kontinu jika digambarkan pada sebuah garis interval, akan berupa sederetan titik yang bersambung membentuk suatu garis lurus. Contohnya, jumlah air yang keluar dari sebuah selang air, jumlah oksigen di udara, dan lain sebagainya. Pengukuran fisik seperti waktu atau panjang merupakan contoh yang paling mudah dipahami untuk variabel acak kontinu ini.

Portfolio Expected Return dan Fortfolio Risk

Setelah kita definisikan kovarians, expected return, dan standar deviasi dari penjumlahan dua variabel acak, kita dapat menerapkan konsep-konsep tersebut pada studi mengenai sekelompok asset yang merujuk pada apa yang disebut sebagai portfolio. Dengan menanamkan investasi yang disebarkan pada tidak hanya satu perusahaan, investor mengkombinasikan pengembalian dan meminimumkan resiko. Dalam studi portfolio, kita menggunakan penimbang untuk setiap jenis investasi dengan proporsi asset pada investasi tersebut. Hal ini memungkinkan kita untuk menghitung portfolio expected return dan portfolio risk.

 

Statistik Inferensial

Pengertian statistik inferensial adalah metode penelitian statistik yang datanya mengambil dari kelompok kecil maupun sample atau indukannya guna penarikan kesimpulan suatu kelompok data induknya ataupun populasi. Rangkuman terhadap semua metode analisis sebagian data disebut dengan statistika inferensial. Dimana selanjutnya akan mencapai proses peramalan atau pembuatan kesimpulan perihal keseluruhan data induk. Generalisasi yang memiliki ikatan statistika inferensial akan mempunyai sifat yang belum tentu kebenarannya (tidak pasti). 

Hal ini disebabkan oleh informasi parsial yang didapatkan dari hanya sebagian data, maka data yang diperoleh adalah peramalan saja.

Macam-Macam Metode Statistik Inferensial

Dalam melakukan statistik inferensial, terdapat dua metode utama yang dapat digunakan, yaitu:

- Estimasi Parameter

Metode yang pertama adalah estimasi parameter, metode ini menggunakan median, mean dan mode serta deviasi standar pada suatu populasi yang meggunakan dasar perhitungan dari sampel. Estimasi parameter bisa dilakukan dengan membuat confidence intervals atau interval kepercayaan, dimana merupakan rentang nilai pada populasi yang sebenarnya cenderung menurun.

- Pengujian Hipotesis

Metode selanjutnya yang dapat digunakan yaitu pengujian hipotesis atau yang dikenal dengan pengujian signifikan. Kerapkali hal tersebut melibatkan penentuan apa perbedaan rata-rata pada dua sampel signifikan. Pengujian hipotesis seringkali diterapkan pada perusahaan farmasi yang ingin mengetahui tentang reaksi obat baru dalam memerangi virus atau gejala tertentu, apakah lebih efektif menggunakannya atau lebih baik tidak mengkonsumsinya sama sekali. Hal ini tentu saja merupakan hal yang tidak mungkin jika penelitian diterapkan pada setiap orang yang memiliki gejala tersebut, sehingga pengambilan sampel secara acak harus digunakan. Selanjutnya kesimpulan dari eksperimen akan digunakan untuk populasi yang lebih lingkup atau luas lagi.

Fungsi Statistika Inferensia

Statistika inferensial juga biasa disebut dengan statistika induktif, dimana statistik ini memiliki tujuan dalam menaksir atau menganalisis secara umum populasi tertentu menggunakan hasil sampel. Tidak terkecuali teori penaksiran serta pengujian teori juga termuat di dalamnya. Statistika inferensial dapat diterapkan dalam melaksanakan beberapa hal, seperti:

- Melaksanakan generalisasi yang bermula dari sampel hingga ke populasi.

- Melaksanakan uji hipotesis.

Informasi Course Terkait
  Kategori: Data Science / Big Data
  Course: Dasar-Dasar Statistika Ilmu Komputer