Bab 1: Data dan Machine Learning

Memahami fondasi utama kecerdasan buatan: data, dataset, dan bagaimana mesin belajar dari pengalaman.

1. Apa itu Data?

Data adalah fakta — representasi dari kejadian atau observasi di dunia nyata. Data bisa berupa angka, teks, gambar, suara, video, atau bentuk informasi lainnya yang dapat direkam dan disimpan.

Asal kata: Kata "data" berasal dari bahasa Latin "datum" yang berarti "sesuatu yang diberikan" (something given). Bentuk jamaknya adalah "data".

Contoh data dalam kehidupan sehari-hari:

Tinggi badan siswa: 165 cm, 170 cm, 158 cm, ...
Harga rumah: Rp 500 juta, Rp 1.2 miliar, ...
Suhu harian: 28°C, 31°C, 27°C, ...
Teks ulasan: "Produk ini sangat bagus", "Pengiriman lambat", ...

Penting: Data mentah (raw data) belum memiliki makna sampai dianalisis dan diinterpretasikan. Angka "28" tidak berarti apa-apa tanpa konteks — apakah itu suhu, usia, atau jumlah barang? Proses mengubah data menjadi informasi yang bermakna inilah inti dari ilmu data dan machine learning.

2. Apa itu Dataset?

Dataset adalah kumpulan data yang terorganisir, biasanya disusun dalam format tabel dengan baris dan kolom. Setiap dataset memiliki struktur tertentu yang memudahkan analisis.

Komponen Dataset

Baris (Row) — disebut juga instance, sample, atau observasi. Setiap baris merepresentasikan satu data/kejadian.
Kolom (Column) — disebut juga feature, attribute, atau variabel. Setiap kolom merepresentasikan satu karakteristik.
Label / Target — kolom khusus yang ingin kita prediksi (pada supervised learning).

Contoh Dataset: Data Rumah

#	Luas (m²)	Jumlah Kamar	Jarak ke Pusat Kota (km)	Harga (Juta Rp) — Target
1	60	2	15	450
2	80	3	10	650
3	120	4	5	1.200
4	45	1	20	300
5	100	3	8	900

Perhatikan: Pada tabel di atas, kolom Luas, Jumlah Kamar, dan Jarak ke Pusat Kota adalah feature (input), sedangkan kolom Harga adalah target/label (output yang ingin diprediksi).

3. Apa itu Machine Learning?

Machine Learning (ML) adalah cabang dari kecerdasan buatan (AI) di mana komputer belajar dari data tanpa diprogram secara eksplisit untuk setiap tugas. Definisi formal yang paling banyak dikutip berasal dari Tom Mitchell:

"A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E." — T. M. Mitchell, Machine Learning, McGraw-Hill, 1997, p. 2.

Komponen Definisi Mitchell

E (Experience) — Data atau pengalaman yang digunakan untuk belajar.
T (Task) — Tugas yang ingin diselesaikan oleh program.
P (Performance) — Ukuran seberapa baik program menyelesaikan tugas.

Contoh Konkret: Deteksi Spam

Komponen	Penjelasan
E (Experience)	Ribuan email yang sudah diberi label "spam" atau "bukan spam"
T (Task)	Mengklasifikasikan email baru sebagai spam atau bukan spam
P (Performance)	Persentase email yang diklasifikasikan dengan benar (akurasi)

Diagram interaktif: Alur komponen Machine Learning

4. Apa itu Model?

Dalam machine learning, model adalah pola, knowledge, atau fungsi rekaan (fungsi buatan) yang dihasilkan dari proses learning. Model berusaha mendekati fungsi sebenarnya yang tidak kita ketahui.

Secara matematis:
Misalkan fungsi sebenarnya (yang tidak diketahui) adalah f(x).
Tujuan ML adalah menemukan model f'(x) yang mendekati f(x) sebaik mungkin.
f'(x) ≈ f(x)

Model bisa disebut dengan berbagai nama:

Pola (Pattern) — pola yang ditemukan dalam data
Pengetahuan (Knowledge) — pengetahuan yang diekstrak dari data
Hipotesis (Hypothesis) — dugaan fungsi terbaik dari sekumpulan kemungkinan
Fungsi Aproksimasi — fungsi pendekatan terhadap hubungan input-output

Tujuan utama ML adalah menemukan model terbaik (f') dari data yang tersedia, sehingga model tersebut dapat melakukan prediksi yang akurat terhadap data baru yang belum pernah dilihat sebelumnya (generalisasi).

Referensi: Konsep model sebagai fungsi aproksimasi dibahas secara mendalam di Mitchell (1997) dan Bishop (2006), Pattern Recognition and Machine Learning, Springer.

5. Bagaimana Machine Learning Bekerja?

Simulasi interaktif di bawah ini menunjukkan proses machine learning secara visual. Anda akan melihat bagaimana model (garis) belajar dari data dan secara bertahap menyesuaikan diri agar mendekati pola yang ada dalam data.

Cara menggunakan:
1. Klik "Buat Data" untuk menghasilkan data acak, atau klik langsung pada canvas untuk menambah titik data secara manual.
2. Klik "Train Model" untuk melihat proses learning — garis akan bergerak menyesuaikan data.
3. Setelah training selesai, klik pada canvas untuk melihat prediksi model.

Jumlah data: 0

Epoch: 0

MSE: -

Status: Menunggu data...

6. Jenis-Jenis Machine Learning

Machine learning secara umum dibagi menjadi tiga kategori utama berdasarkan cara model belajar dari data:

📚

Supervised Learning

Model belajar dari data yang sudah memiliki label (jawaban benar). Tujuannya adalah mempelajari pemetaan dari input ke output.

Contoh: Klasifikasi (spam/bukan), Regresi (prediksi harga)

🔎

Unsupervised Learning

Model belajar dari data tanpa label. Tujuannya menemukan pola atau struktur tersembunyi dalam data.

Contoh: Clustering (pengelompokan pelanggan), Reduksi dimensi

🎯

Reinforcement Learning

Agen belajar melalui interaksi dengan lingkungan dan mendapat reward (hadiah) atau penalty (hukuman).

Contoh: Robot belajar jalan, AI bermain game

Diagram animasi: Tiga jenis Machine Learning

Referensi

T. M. Mitchell, Machine Learning. New York: McGraw-Hill, 1997, p. 2.
C. M. Bishop, Pattern Recognition and Machine Learning. New York: Springer, 2006.
I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. Cambridge, MA: MIT Press, 2016.

Selanjutnya: Persamaan Garis Lurus →