Jumat, 10 September 2021

Distributions & Standard Normal Distributions

 



Geometric Distribution

Geometric Distribution merupakan suatu discrete probability distribution yang memenuhi kriteria berikut:

- Percobaan (trial) akan dilakukan berulang kali sampai mendapatkan outcome success.
- Setiap percobaan (trial) adalah independent terhadap trials lainnya.
- Memiliki nilai probability success (p) yang sama untuk tiap trial.
- Random variable x merepresentasikan banyaknya trials yang dilakukan sampai mendapati kondisi success.

Poisson Distribution

Poisson Distribution merupakan suatu discrete probability distribution yang memenuhi kriteria berikut:

- Random variable x merepresentasikan banyaknya kemunculan suatu event dalam interval waktu tertentu.
- Nilai probability untuk kemunculan event adalah sama untuk setiap interval.
- Jumlah kemunculan event pada suatu interval adalah independent terhadap jumlah kemunculan event pada interval lainnya.

Distribusi Geometrik & Distribusi Poisson

 


Geometric Distribution

Geometric Distribution merupakan suatu discrete probability distribution yang memenuhi kriteria
berikut: 

- Percobaan (trial) akan dilakukan berulang kali sampai mendapatkan outcome success. 
- Setiap percobaan (trial) adalah independent terhadap trials lainnya. 
- Memiliki nilai probability success (p) yang sama untuk tiap trial.
- Random variable x merepresentasikan banyaknya trials yang dilakukan sampai
  mendapati kondisi success.

Poisson Distribution

Poisson Distribution merupakan suatu discrete probability distribution yang memenuhi kriteria berikut:

- Random variable x merepresentasikan banyaknya kemunculan suatu event dalam interval
  waktu tertentu. 
- Nilai probability untuk kemunculan event adalah sama untuk setiap interval.
- Jumlah kemunculan event pada suatu interval adalah independent terhadap jumlah
  kemunculan event pada interval lainnya.

Distribusi Binomial

 



Binomial Experiments
 
Binomial experiment merupakan suatu probability experiment yang memenuhi kriteria berikut: 

- Memiliki jumlah percobaan (trials) yang tetap dan setiap trial independent terhadap trials lainnya.
- Setiap trial hanya memiliki dua kemungkinan outcomes; biasa dikategorikan sebagai success (S) atau failure (F).
- Memiliki nilai probability success yang sama untuk tiap trial.
- Random variabel x merepresentasikan jumlah kemunculan success dalam suatu experiment.


Binomial Probability Formula

Terdapat beberapa cara untuk menghitung probability dari x success dari sejumlah n trials pada suatu binominal experiment: Tree Diagram, Multiplication Rule, Binomial Probability Formula.

Binomial Probability : 

1. Mean
2. Variance  
3. Standard Deviation

Distribusi Probabilitas



Random Variables

Random variable x merepresentasikan suatu nilai numerik yang berasosiasi dengan setiap outcome dari suatu probability experiment.

Kata “Random” mengindikasikan bahwa nilai x ditentukan secara kebetulan (by chance).

Dua Jenis Random Variables: Discrete dan Continuous

- Discrete: Semua kemungkinan outcomes dapat dihitung (countable) atau memiliki

  batasan (finite)

- Continuous: Semua kemungkinan outcomes tidak dapat dihitung (uncountable), umumnya

  direpresentasikan dengan nilai interval.

Discrete Probability Distributions

Suatu Discrete Probability Distribution mendata setiap kemungkinan nilai random variable beserta probabilitasnya.

Membangun Discrete Probability Distributions

1. Bangun frequency distribution untuk seluruh outcome
2. Hitung total jumlah kemunculan (sum of the frequencies)
3. Hitung probability untuk setiap outcome
4. Pastikan kedua syarat untuk suatu frequency distribution terpenuhi.

Mean

untuk Discrete Random Variable

Nilai mean untuk suatu discrete random variable dapat diformulasikan.

Standard Deviation

untuk Discrete Random Variable

Nilai variance dan standard deviation untuk suatu discrete random variable dapat diformulasikan .

Expected Value

Nilai mean dari suatu random variable merepresentasikan apa yang bisa kita harapkan untuk diperoleh dari ribuan kali percobaan (trials). Ini juga dikenal dengan istilah expected value.

- Nilai probability tidak mungkin negatif, tetapi nilai expected value memungkinkan untuk negatif

- Di banyak kasus, nilai expected value 0 dapat memiliki makna tersendiri;

 1. Untuk kasus permainan: fair game
 2. Untuk kasus loss & profit analysis: break-even point

Permutasi dan Kombinasi dengan Phyton

 


- Permutasi (Permutations)

 Permutasi adalah pengaturan urutan penyusunan sekumpulan objek unik (tidak mengandung duplikasi); Permutasi dari sekumpulan n objek dapat diformulasikan sebagai faktorial dari n.

n!= n x ( n -1 ) x (n - 2 ) x (n - 3 ) x ... x 3 x 2 x1

kasus khusus 0! = 1

- Permutasi: formula

Permutasi pada pengaturan urutan penyusunan sejumlah r objek yang diambil dari sekumpulan n objek unik dapat diformulasikan 

 nPr = n! / (n - r )!

- Permutasi: dengan duplikasi

Permutasi yang melibatkan kemunculan beberapa kali objek sejenis dapat diformulasikan

n1 + n2 + n3 + .... + nk = n

- Kombinasi (Combinations)

 Kombinasi adalah pemilihan sejumlah r objek dari sekumpulan n objek tanpa memperhatikan urutan.

nCr = n! / (n - r ) ! xr!

Permutasi dan Kombinasi

 



- Permutasi (Permutations)

Permutasi adalah pengaturan urutan penyusunan sekumpulan objek unik (tidak mengandung duplikasi); Permutasi dari sekumpulan n objek dapat diformulasikan sebagai faktorial dari n.

- Permutasi: formula

Permutasi pada pengaturan urutan penyusunan sejumlah r objek yang diambil dari sekumpulan n objek unik dapat diformulasikan.

- Permutasi: dengan duplikasi

Permutasi yang melibatkan kemunculan beberapa kali objek sejenis dapat diformulasikan

- Kombinasi (Combinations)

Kombinasi adalah pemilihan sejumlah r objek dari sekumpulan n objek tanpa memperhatikan urutan.

Aturan Penjumlahan

 


Mutually Exclusive Events

Dua buah events A dan B adalah mutually exclusive events bila A dan B tidak dapat muncul pada waktu yang bersamaan.


Mutually Exclusive Events

Ketika event A dan B mutually exclusive, maka: p ( A dan B ) = 0

The Addition Rule/Aturan Penjumlahan

Probabilitas untuk kemunculan event A atau B dapat diformulasikan sebagai berikut:

- Not mutually exclusive events.

  P = ( A  or B ) = P (A) + P (B) - P ( A dan B).

- Mutually exclusive events

  P ( A or B ) = P (A) + P ( B )

Conditional Probability dan Aturan Perkalian

 



- Conditional Probability 

Conditional Probability adalah probabilitas kemunculan suatu event, dengan mengetahui bahwa event lain sudah muncul atau terjadi.

P ( B/A) probability of B given A.

- Independent Events

Dua events adalah independent bila kemunculan dari event yang satu tidak mempengaruhi probability kemunculan event kedua.

P(B/A) = P (B)

P(A/B) = P(A)

- Dependent Events

Events yang tidak independent dikenal sebagai dependent events.

P(B/A) /= P (B)

- The Multiplication Rule

Untuk mencari probability dari dua events yang muncul secara berurutan, kita bisa memanfaatkan Multiplication Rule.

1. Probability untuk dua buah events (A dan B) untuk muncul secara berurutan
2. Bilamana kedua events (A dan B) tersebut independent, maka bisa disederhanakan

Probabilitas Dasar

 




Probability adalah pengukuran terhadap suatu kemungkinan atau peluang. Pemahaman terkait probability merupakan dasar untuk melangkah ke Statistika Inferensi ( Inferential Statistics ).

- Terminologi

1. Hasil dari suatu percobaan ( trial ) dikenal sebagai outcome.
2.Himpunan dari seluruh kemungkinan outcome pada suatu probability experiment dikenal sebagai sample space.
3.Bagian dari sample space dikenal sebagai event.
4.Event bisa terdiri dari satu atau lebih outcomes.

- Probability Experiments 

Probability Experiment adalah aksi atau percobaan ( trial ) yang menghasilkan suatu perhitungan, pengukuran, atau respon ( counts, measurements, or responses ).

- Tree Diagram

Tree Diagram digunakan untuk memberikan gambaran secara visual terkait setiap outcome dari suatu probability experiment.

- Event

Event umumnya direpresentasikan dengan huruf kapital (uppercase letters), seperti A, B, dan C.
Suatu event yang terdiri dari sebuah outcome dikenal sebagai simple event.

- Fundamental Counting Principle

Pemanfaatan Tree Diagram untuk menghitung banyaknya outcome dari sejumlah event
tidaklah praktis.
Sebagai alternatif, kita bisa memanfaatkan Fundamental Counting Principle untuk mengetahui jumlah kemungkinan outcomes dari dua atau lebih event yang muncul secara berurutan. 

Pengukuran Posisi Data

 


Measure of Position dapat didefinisikan sebagai suatu pengukuran nilai yang digunakan untuk menentukan posisi relatif dari suatu entri data (data point) pada dataset.

Terdiri dari;

- Quartile (Kuartil)

Quartile adalah nilai yang membagi suatu dataset terurut menjadi empat bagian yang sama. Terdapat tiga nilai quartile, yaitu: Q1, Q2, dan Q3

- Interquartile Range (IQR)

Interquartile Range (IQR) adalah measure of Variation (pengukuran keberagaman/sebaran data) dengan menselisihkan nilai quartile ketiga dan quartile pertama.

IQR = Q3 - Q1.

Deteksi Outlier dengan IQR

Entri data (data point) pada suatu dataset bisa dikategorikan sebagai outlier bila: 

  - Lebih kecil dari Q1-1.5(IQR)

  - Lebih besar dari Q3+1.5(IQR)

- Percentile (Persentil)

Percentile adalah nilai yang membagi suatu dataset terurut menjadi 100 bagian yang sama. Terdapat 99 nilai percentaile, yaitu: P1, P2, …, P99

  - P25 menunjuk posisi yang sama dengan Q1 

  - P50 menunjuk posisi yang sama dengan Q2 

  - P75 menunjuk posisi yang sama dengan Q3

Deteksi Outlier dengan Percentile

Entri data (data point) pada suatu dataset bisa dikategorikan sebagai outlier bila: 

  - Lebih kecil dari P5 

  - Lebih besar dari P95 .


- Standard Score (z-score)

  Standard Score (z-score) merepresentasikan nilai simpangan suatu entri data terhadap

  mean dari dataset yang diukur berdasarkan standard deviation. Nilai z-score bisa negatif,

  positif, atau nol.

Pengukuran Sebaran Data

 


Measure of Variation pengukuran sebaran data  dapat didefinisikan sebagai suatu pengukuran nilai yang dapat digunakan untuk merepresentasikan keberagaman atau sebaran data.

Yang terdiri dari : Range, Variance, Standard Deviation.

- Range (Jangkauan)

Range dari suatu dataset merupakan hasil perhitungan selisih antara nilai tertinggi denggan nilai terendah pada dataset tersebut.

Pengukuran nilai keberagaman dengan menggunakan range memiliki kelemahan di mana hanya menyertakan dua nilai saja dalam proses penggukuran.

- Variance (Variansi)

Variance dari suatu dataset merupakan hasil perhitungan rerata simpangan tiap entri data pada dataset terhadap nilai mean dari dataset tersebut.

- Standard Deviation (Simpangan Baku) 

Kelemahan utama dari Variance adalah nilai yang dihasilkan tidak lagi memiliki satuan yang sama dengan entri data. Kelemahan ini dapat diatasi dengan Standard Deviation.

- Coefficient of Variation

Standard Deviation dapat digunakan untuk membandingkan keberagaman/sebaran data antar dataset yang memiliki satuan pengukuran yang sama dengan nilai mean yang mirip.

Sedangkan untuk dataset yang memiliki satuan pengukuran yang berbeda atau nilai mean yang jauh berbeda, maka kita mesti menggunakan Coefficient of Variation.

Pengukuran Tendensi Sentral

 


Measure of Central Tendency dapat didefinisikan sebagai suatu pengukuran nilai yang dapat digunakan untuk merepresentasikan nilai tipikal atau sentral dari suatu dataset.

Didalamnya terdapat : Mean, Median, Mode 

- Mean

Mean dari suatu dataset merupakan penjumlahan dari keseluruhan entri pada dataset dibagi dengan banyaknya entri pada dataset tersebut.

- Median

Median dari suatu dataset merupakan nilai yang berada di tengah dengan mengacu pada nilai dataset yang sudah terurut.

- Untuk dataset dengan jumlah entri ganjil, nilai median dapat diperoleh dari nilai yang tepat berada di tengah. 

- Untuk dataset dengan jumlah entri genap, nilai median diperoleh dari rata rata dua nilai yang berada di tengah.


- Mode

Mode dari suatu dataset merupakan nilai dari dataset yang memiliki frekuensi kemunculan paling tinggi.

- Suatu dataset dapat memiliki lebih dari satu mode (multi-modal).

- Suatu dataset juga bisa saja tidak memiliki mode, ketika frekuensi kemunculan dari tiap datanya sama.

Kelebihan dan Kekurangan Mean

1. Mean cukup bisa diandalkan karena mean memperhitungkan setiap entri dari dataset yang kita miliki.

2. Mean sangat rentan terhadap outlier.

3. Median bisa dijadikan alternatif bilamana terdapat outlier pada dataset.


- Weighted Mean

Weighted Mean adalah nilai rerata dari suatu dataset di mana setiap entrinya memiliki bobot tertentu.

- Mean of Grouped Data (Frequency Distribution)

estimasi nilai rerata dari suatu dataset yang sudah dikelompokkan ke dalam format distribusi frekuensi.

Visualisasi Data dalam Statistika

 


Teknik visualisasi data yang akan dipelajari yaitu :

- Stem and Leaf Plot
Steam and Leaf (S-L) merupakan metode grafis untuk menampilkan data. S-L sangat berguna dalam menyajikan data dengan jumlah yang relative kecil. Tujuan dari pembuatan S-L adalah untuk menjelaskan distribusi suatu data apakah simetris atau tidak, dsb.

- Dot Plot
   
Dot plot dapat digunakan untuk menampilkan distribusi baik data berupa kategori maupun numerik.
Untuk data numerik dengan data kontinyu umumnya akan diperlakukan seperti pada proses pembuatan histogram yaitu data dikelompokkan menjadi kelas-kelas tertentu dimana frekuensi observasi dibuat menggunakan dot yang menumpuk sesuai jumlah observasi. Dot plot mirip dengan S-L dimana dapat digunakan untuk menjelaskan distribusi data yang kecil. Hal yang membedakannya adalah pada dot plot tidak ditampilkan nilai masing-masing observasi seperti S-L berupa leaf.

- Pie Chart

Pie chart biasanya digunakan untuk memvisualisasikan data yang bentuknya persen(0-100%).
Pie chart akan membagi lingkaran sesuai dengan persentase data yang digunakan.
Contoh penggunaannya adalah untuk mempresentasikan berapa persen penduduk indonesia yang berusia tua dan muda.

- Bar Plot

Bar chart menampilkan variabel diskrit ataupun data kategorikal dalam bentuk bar horizontal atau vertikal dengan tinggi atau panjang bar yang sesuai dengan jumlah datanya.
Sebagai contoh, Anda memiliki data yang berupa nilai sejumlah mahasiswa untuk suatu mata kuliah.
Bar chart di bawah ini dapat membantu Anda untuk mengetahui apakah seluruh mahasiswa berhasil menyelesaikan perkuliahan dengan baik atau tidak.
Berdasarkan Bar chart ini, sebagian besar mahasiswa memiliki nilai yang baik.

- Scatter Plot

Scatter plot digunakan untuk memvisualkan persebaran suatu data dengan data x dan y yang bisa diatur sesuka hati.
Biasanya digunakan untuk mencari hubungan antara 2 data yang saling berkaitan, seperti misalnya hubungan antara berat mobil dengan kecepatannya.

- Time Series Chart

Time series plot adalah grafik yang terdiri dari sumbu X untuk menunjukkan variabel waktu, serta sumbu Y yang menunjukkan dataset. 
Grafik ini memiliki titik-titik yang terhubung oleh garis lurus untuk menunjukkan perkembangan data dari waktu ke waktu.

- Visualisasi Data dengan Python

Distribusi Frekuensi

 


Beberapa karakteristik yang umum digunakan untuk mendeskripsikan data yang kita miliki adalah dengan mencari tahu titik tengah data (center), variasi/sebaran data (variability/spread), dan bentuk data (shape).

Ini bisa dicapai bila data yang kita miliki dikelola dengan baik; salah satu cara yang paling mudah untuk mengelola data adalah dengan memanfaat distribusi frekuensi (frequency distribution).


Distribusi Frekuensi (Frequency Distribution)

- Distribusi frekuensi adalah bentuk pengelolaan data di mana data dikelompokkan ke

  dalam beberapa kelas (classes) berdasarkan interval tertentu.

- Jumlah kemunculan data untuk tiap kelas akan dihitung dan dikenal sebagai frekuensi

  dari kelas.

Contoh : 

- Terdapat 6 classes
- Antar classes tidak ada overlap
- Setiap class memiliki: ○ Lower Class Limit: 1, 6, 11, 16, 21, 26 ○ Upper Class Limit: 5, 10, 15,

  20, 25, 30 ○ Class Width: 5

Distributions & Standard Normal Distributions

  Geometric Distribution Geometric Distribution merupakan suatu discrete probability distribution yang memenuhi kriteria berikut: - Percobaa...