GPT (Generative Pre-trained Transformer)

Transformer Decoder untuk generasi teks - fondasi ChatGPT, Claude, dan semua LLM modern

GPT pada Level Neuron & Edge

GPT menggunakan Transformer Decoder. Perbedaan utama dari BERT: edge di Self-Attention bersifat causal (satu arah) - neuron hanya bisa terhubung ke neuron SEBELUMNYA.

Prompt:

Klik untuk melihat alur data melalui neuron GPT Decoder - perhatikan edge CAUSAL

Perbandingan Edge di level neuron:
- BERT (bidirectional): neuron "kucing" ← edge → neuron "tidur" (saling terhubung)
- GPT (causal): neuron "kucing" → edge → neuron "tidur" (hanya satu arah). Neuron "tidur" TIDAK bisa mengirim sinyal ke "kucing"

Karena GPT harus memprediksi kata berikutnya, ia tidak boleh "melihat jawaban" di masa depan!

1. Next Token Prediction - Cara GPT Bekerja

GPT bekerja dengan cara sangat sederhana: memprediksi kata berikutnya. Diberikan beberapa kata, GPT memprediksi kata selanjutnya. Lalu kata itu ditambahkan ke input, dan proses diulang.

Prompt: Temperature: 0.7

Output akan muncul di sini...

P(next_token | previous_tokens) = softmax(logits / temperature)

Temperature:
- Rendah (0.1-0.5): Output lebih deterministik/pasti, memilih kata dengan probabilitas tertinggi
- Tinggi (1.0-2.0): Output lebih kreatif/random, kata dengan probabilitas rendah lebih mungkin dipilih
- Temperature mengontrol "kekreatifan" model

Autoregressive:
GPT menghasilkan teks satu token per langkah:
1. Input: "kucing itu" → prediksi: "sedang"
2. Input: "kucing itu sedang" → prediksi: "tidur"
3. Input: "kucing itu sedang tidur" → prediksi: "di"
Dan seterusnya sampai menghasilkan token [END] atau panjang maksimum.

2. Causal Masking - Mengapa GPT Hanya Melihat Kiri

Saat training, GPT menggunakan causal mask agar setiap posisi hanya bisa memperhatikan token sebelumnya. Ini mencegah "cheating" - model tidak boleh melihat jawaban sebelum menebak.

Kalimat:

Training GPT:
- Input: "saya suka makan nasi goreng"
- Target posisi 1: "saya" → target: "suka"
- Target posisi 2: "saya suka" → target: "makan"
- Target posisi 3: "saya suka makan" → target: "nasi"
- Target posisi 4: "saya suka makan nasi" → target: "goreng"

Setiap posisi belajar memprediksi token berikutnya. Semua posisi dilatih secara paralel dalam satu forward pass!

3. Sampling Strategies: Memilih Token Berikutnya

Setelah GPT menghasilkan probabilitas untuk semua token, bagaimana kita memilih token berikutnya?

Context: Top-K: 5 Temp: 1.0

Strategi Sampling:
1. Greedy: Selalu pilih token dengan probabilitas tertinggi. Deterministik tapi membosankan.
2. Top-K: Hanya pertimbangkan K token teratas, lalu sample dari distribusi mereka.
3. Top-P (Nucleus): Pertimbangkan token teratas yang totalnya mencapai probabilitas P.
4. Temperature Sampling: Sesuaikan "ketajaman" distribusi probabilitas sebelum sampling.

4. Evolusi GPT: Dari GPT-1 ke GPT-4

Scaling Law: Performa model meningkat seiring bertambahnya parameter, data, dan komputasi. Ini yang mendorong perlombaan membuat model semakin besar, dari jutaan ke triliunan parameter.

Referensi:
[1] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, "Improving language understanding by generative pre-training," OpenAI, 2018.
[2] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, "Language models are unsupervised multitask learners," OpenAI Blog, vol. 1, no. 8, p. 9, 2019.
[3] T. Brown et al., "Language models are few-shot learners," in Advances in Neural Information Processing Systems (NeurIPS), vol. 33, 2020, pp. 1877-1901.
[4] J. Kaplan et al., "Scaling laws for neural language models," arXiv preprint arXiv:2001.08361, 2020.
Lihat semua referensi →

← BERT Selanjutnya: Full LLM Pipeline →