Memahami Data Anda
Sebelum memulai pelatihan model, penting untuk memahami data Anda secara akurat. Tiga konsep dasar statistika yang perlu dipahami adalah Mean, Median, dan Variance.
Mean: Pusat Data
Mean adalah rata-rata dari seluruh data. Namun, mean memiliki kelemahan karena dapat dipengaruhi oleh nilai-nilai ekstrem.
- Contoh:
[72, 85, 91, 68, 78, 95, 62, 88, 74, 83]memiliki mean79.6, yang terdengar masuk akal karena sebagian besar nilai berada di sekitar nilai tersebut. - Namun, jika ada nilai ekstrem seperti
[45000, 52000, 48000, 55000, 51000, 2500000], mean menjadi458500, yang tidak mewakili nilai mayoritas.
Median: Nilai Tengah
Median adalah nilai tengah ketika data diurutkan. Median tidak dipengaruhi oleh nilai-nilai ekstrem.
- Contoh: Data
[45000, 52000, 48000, 55000, 51000, 2500000]memiliki median51500, yang lebih akurat mewakili nilai mayoritas.
Variance: Seberapa Jauh Data Menyebar
Variance mengukur seberapa jauh nilai-nilai data menyebar dari mean. Dua kelas dapat memiliki mean yang sama tetapi variance yang berbeda.
- Contoh: Dua kelas dengan mean yang sama dapat memiliki variance yang berbeda, menunjukkan bahwa salah satu kelas memiliki nilai yang lebih menyebar.
Standard Deviasi: Kembali ke Satuan Asli
Standard deviasi adalah akar kuadrat dari variance, yang membawa kita kembali ke satuan asli data.
- Contoh: Jika data memiliki mean
80dan standard deviasi3.2, maka sebagian besar nilai berada dalam rentang80 ± 3.2.
Menggunakan Konsep-Konsep Ini Bersama
Konsep-konsep ini dapat digunakan bersama untuk menganalisis data dan membuat keputusan yang lebih akurat. Misalnya, dengan menggunakan z-score, kita dapat mendeteksi outlier dalam data.
Normalisasi: Mengapa Konsep-Konsep Ini Penting untuk AI
Normalisasi data penting dalam AI karena memastikan bahwa semua fitur memiliki skala yang sama, sehingga model dapat memperlakukan semua fitur dengan sama.
- Contoh: Dengan menormalisasi data usia dan penghasilan, kita dapat memastikan bahwa model memperlakukan kedua fitur dengan sama, tanpa dipengaruhi oleh skala yang berbeda.
Kesimpulan
Memahami konsep dasar statistika seperti mean, median, variance, dan standard deviasi sangat penting untuk menganalisis data dengan tepat. Dengan menggunakan konsep-konsep ini, kita dapat membuat keputusan yang lebih akurat dan membangun model AI yang lebih baik.



