Konsep encoding-decoding: mengompresi informasi ke representasi ringkas lalu merekonstruksinya kembali
0. Fondasi: Embedding & Vector
Sebelum memahami autoencoder, kita perlu memahami konsep fundamental: bagaimana komputer merepresentasikan kata dan data sebagai angka.
Apa itu Vector?
Vector adalah daftar angka yang merepresentasikan sesuatu. Misalnya posisi di ruangan: [x, y, z] = [3, 5, 2]. Dalam AI, vector bisa berisi ratusan angka yang merepresentasikan "makna" sebuah kata.
Apa itu Embedding?
Embedding adalah proses mengubah kata/data menjadi vector angka yang bermakna. Kata dengan arti mirip akan punya vector yang berdekatan. "raja" dan "ratu" lebih dekat daripada "raja" dan "meja".
Properti ajaib embedding:
vector("raja") - vector("pria") + vector("wanita") ≈ vector("ratu")
Artinya embedding menangkap hubungan semantik antar kata! Ini adalah fondasi mengapa AI modern bisa "memahami" bahasa.
1. Autoencoder: Kompresi & Rekonstruksi
Autoencoder belajar merepresentasikan data dalam bentuk yang lebih ringkas (latent space), lalu merekonstruksinya kembali. Bottleneck di tengah memaksa model belajar fitur paling penting.
Mengapa ini penting?
- Autoencoder mengajarkan model untuk menangkap esensi/makna dari data
- Latent space adalah "bahasa internal" model - representasi terkompresi
- Konsep encoder-decoder ini adalah fondasi arsitektur Transformer!
- BERT menggunakan bagian encoder, GPT menggunakan bagian decoder
2. Latent Space: Ruang Representasi Tersembunyi
Di latent space, data yang mirip berada berdekatan. Ini memungkinkan model melakukan interpolasi dan generasi data baru.
Latent Space = Peta Makna: Bayangkan semua kalimat dipetakan ke sebuah ruangan 3D. Kalimat dengan makna mirip berada di area yang sama. "Kucing tidur di sofa" dekat dengan "Anjing tidur di kasur" tapi jauh dari "Harga saham naik".
Konsep ini berkembang menjadi word embeddings (Word2Vec, GloVe) dan contextual embeddings (BERT, GPT) yang lebih canggih.