Memahami fondasi utama kecerdasan buatan: data, dataset, dan bagaimana mesin belajar dari pengalaman.
1. Apa itu Data?
Data adalah fakta — representasi dari kejadian atau observasi di dunia nyata.
Data bisa berupa angka, teks, gambar, suara, video, atau bentuk informasi lainnya yang dapat direkam dan disimpan.
Asal kata: Kata "data" berasal dari bahasa Latin "datum" yang berarti
"sesuatu yang diberikan" (something given). Bentuk jamaknya adalah "data".
Contoh data dalam kehidupan sehari-hari:
Tinggi badan siswa: 165 cm, 170 cm, 158 cm, ...
Harga rumah: Rp 500 juta, Rp 1.2 miliar, ...
Suhu harian: 28°C, 31°C, 27°C, ...
Teks ulasan: "Produk ini sangat bagus", "Pengiriman lambat", ...
Penting: Data mentah (raw data) belum memiliki makna sampai dianalisis dan diinterpretasikan.
Angka "28" tidak berarti apa-apa tanpa konteks — apakah itu suhu, usia, atau jumlah barang?
Proses mengubah data menjadi informasi yang bermakna inilah inti dari ilmu data dan machine learning.
2. Apa itu Dataset?
Dataset adalah kumpulan data yang terorganisir, biasanya disusun dalam format tabel
dengan baris dan kolom. Setiap dataset memiliki struktur tertentu yang memudahkan analisis.
Komponen Dataset
Baris (Row) — disebut juga instance, sample, atau observasi. Setiap baris merepresentasikan satu data/kejadian.
Kolom (Column) — disebut juga feature, attribute, atau variabel. Setiap kolom merepresentasikan satu karakteristik.
Label / Target — kolom khusus yang ingin kita prediksi (pada supervised learning).
Contoh Dataset: Data Rumah
#
Luas (m²)
Jumlah Kamar
Jarak ke Pusat Kota (km)
Harga (Juta Rp) — Target
1
60
2
15
450
2
80
3
10
650
3
120
4
5
1.200
4
45
1
20
300
5
100
3
8
900
Perhatikan: Pada tabel di atas, kolom Luas, Jumlah Kamar, dan
Jarak ke Pusat Kota adalah feature (input), sedangkan kolom Harga
adalah target/label (output yang ingin diprediksi).
3. Apa itu Machine Learning?
Machine Learning (ML) adalah cabang dari kecerdasan buatan (AI) di mana komputer belajar dari data
tanpa diprogram secara eksplisit untuk setiap tugas. Definisi formal yang paling banyak dikutip
berasal dari Tom Mitchell:
"A computer program is said to learn from experience E with respect
to some class of tasks T and performance measure P, if its performance
at tasks in T, as measured by P, improves with experience E."
— T. M. Mitchell, Machine Learning, McGraw-Hill, 1997, p. 2.
Komponen Definisi Mitchell
E (Experience) — Data atau pengalaman yang digunakan untuk belajar.
T (Task) — Tugas yang ingin diselesaikan oleh program.
P (Performance) — Ukuran seberapa baik program menyelesaikan tugas.
Contoh Konkret: Deteksi Spam
Komponen
Penjelasan
E (Experience)
Ribuan email yang sudah diberi label "spam" atau "bukan spam"
T (Task)
Mengklasifikasikan email baru sebagai spam atau bukan spam
P (Performance)
Persentase email yang diklasifikasikan dengan benar (akurasi)
Dalam machine learning, model adalah pola, knowledge, atau fungsi rekaan
(fungsi buatan) yang dihasilkan dari proses learning. Model berusaha mendekati fungsi
sebenarnya yang tidak kita ketahui.
Secara matematis:
Misalkan fungsi sebenarnya (yang tidak diketahui) adalah f(x).
Tujuan ML adalah menemukan model f'(x) yang mendekati f(x) sebaik mungkin. f'(x) ≈ f(x)
Model bisa disebut dengan berbagai nama:
Pola (Pattern) — pola yang ditemukan dalam data
Pengetahuan (Knowledge) — pengetahuan yang diekstrak dari data
Hipotesis (Hypothesis) — dugaan fungsi terbaik dari sekumpulan kemungkinan
Fungsi Aproksimasi — fungsi pendekatan terhadap hubungan input-output
Tujuan utama ML adalah menemukan model terbaik (f') dari data yang tersedia,
sehingga model tersebut dapat melakukan prediksi yang akurat terhadap data baru yang belum pernah
dilihat sebelumnya (generalisasi).
Referensi: Konsep model sebagai fungsi aproksimasi dibahas secara mendalam di
Mitchell (1997) dan Bishop (2006), Pattern Recognition and Machine Learning, Springer.
5. Bagaimana Machine Learning Bekerja?
Simulasi interaktif di bawah ini menunjukkan proses machine learning secara visual. Anda akan melihat
bagaimana model (garis) belajar dari data dan secara bertahap menyesuaikan diri agar mendekati pola
yang ada dalam data.
Cara menggunakan:
1. Klik "Buat Data" untuk menghasilkan data acak, atau klik langsung pada canvas untuk menambah titik data secara manual.
2. Klik "Train Model" untuk melihat proses learning — garis akan bergerak menyesuaikan data.
3. Setelah training selesai, klik pada canvas untuk melihat prediksi model.
Jumlah data: 0
Epoch: 0
MSE: -
Status: Menunggu data...
6. Jenis-Jenis Machine Learning
Machine learning secara umum dibagi menjadi tiga kategori utama berdasarkan cara model belajar dari data:
📚
Supervised Learning
Model belajar dari data yang sudah memiliki label (jawaban benar).
Tujuannya adalah mempelajari pemetaan dari input ke output.