Full Pipeline: Training hingga LLM

Dari data mentah hingga model bahasa siap pakai - proses lengkap membangun LLM/SLM

Pipeline Lengkap Membangun LLM

1. Data Collection & Cleaning

Mengumpulkan miliaran teks dari internet, buku, paper. Membersihkan duplikat, konten berbahaya, data berkualitas rendah.

2. Tokenization

Mengubah teks menjadi token menggunakan BPE (Byte-Pair Encoding) atau SentencePiece. Membangun vocabulary dari data.

3. Pre-training

Melatih model transformer besar pada seluruh data dengan next-token prediction. Membutuhkan ribuan GPU selama berminggu-minggu.

4. Supervised Fine-Tuning (SFT)

Melatih model pada data instruksi-respons berkualitas tinggi agar model bisa mengikuti instruksi manusia.

5. RLHF / Alignment

Reinforcement Learning from Human Feedback - mengajarkan model untuk menghasilkan respons yang aman, helpful, dan honest.

6. Deployment & Inference

Optimasi model (quantization, distillation), deploy ke server, dan melayani pengguna secara real-time.

1. Animasi Pipeline Lengkap

2. Tokenization: BPE (Byte-Pair Encoding)

Tokenizer tidak memecah per kata seperti yang kita kira. BPE memecah kata menjadi subword yang optimal - kata umum tetap utuh, kata langka dipecah.

Kalimat:

Mengapa BPE?
- "belajar" mungkin satu token, tapi "pembelajaran" menjadi ["pembel", "ajaran"]
- Kata langka dipecah jadi subword yang lebih umum
- Vocabulary terbatas (misal 50,000 token) bisa merepresentasikan jutaan kata
- GPT-2 menggunakan ~50,257 token, GPT-4 menggunakan ~100,000 token

3. Training Loop: Bagaimana Model Belajar

for each batch in dataset:
  logits = model(input_tokens)
  loss = cross_entropy(logits, target_tokens)
  loss.backward()  # compute gradients
  optimizer.step() # update weights

Pre-training (mahal!):
- Data: triliunan token dari internet
- Compute: ribuan GPU A100/H100
- Waktu: berminggu-minggu sampai berbulan-bulan
- Biaya: jutaan hingga ratusan juta dollar
- Objective: next-token prediction

Fine-tuning (lebih murah):
- Data: ribuan-jutaan contoh instruksi-respons
- Compute: beberapa GPU saja
- Waktu: berjam-jam sampai berhari-hari
- Biaya: ratusan-ribuan dollar
- Objective: mengikuti instruksi dengan baik

4. Small Language Model (SLM): LLM untuk Semua

Tidak semua orang butuh model raksasa. SLM (Small Language Model) adalah versi lebih kecil yang tetap powerful untuk tugas spesifik.

Teknik membuat SLM:
1. Knowledge Distillation: Model besar (teacher) mengajarkan model kecil (student)
2. Quantization: Mengurangi presisi angka (float32 → int8) untuk memperkecil ukuran
3. Pruning: Membuang koneksi/neuron yang tidak penting
4. Architecture Search: Menemukan arsitektur optimal yang lebih kecil

Contoh SLM: Phi-3 Mini (3.8B), Gemma 2B, LLaMA 7B, Mistral 7B

5. Demo Interaktif: Dari Input ke Output

Lihat seluruh proses dari kalimat input hingga output yang dihasilkan model.

Prompt:

Referensi:
[1] T. Brown et al., "Language models are few-shot learners," in Advances in Neural Information Processing Systems (NeurIPS), vol. 33, 2020, pp. 1877-1901.
[2] L. Ouyang et al., "Training language models to follow instructions with human feedback," in Advances in Neural Information Processing Systems (NeurIPS), vol. 35, 2022, pp. 27730-27744.
[3] R. Sennrich, B. Haddow, and A. Birch, "Neural machine translation of rare words with subword units," in Proc. 54th Annual Meeting of the Association for Computational Linguistics (ACL), 2016, pp. 1715-1725.
[4] G. Hinton, O. Vinyals, and J. Dean, "Distilling the knowledge in a neural network," arXiv preprint arXiv:1503.02531, 2015.
[5] H. Touvron et al., "LLaMA: Open and efficient foundation language models," arXiv preprint arXiv:2302.13971, 2023.
Lihat semua referensi →

← GPT Referensi Lengkap →