Logistic Regression

Dari prediksi nilai kontinu ke klasifikasi: bagaimana fungsi sigmoid mengubah regresi linear menjadi mesin pengambil keputusan

1. Dari Regresi ke Klasifikasi

Regresi linear memprediksi nilai kontinu (misalnya harga rumah, suhu). Namun bagaimana jika kita ingin mengklasifikasikan?

Apakah email ini spam atau bukan spam?
Apakah pasien sakit atau sehat?
Apakah mahasiswa lulus atau tidak lulus?

Untuk klasifikasi, output harus berupa probabilitas antara 0 dan 1. Masalahnya, fungsi linear bisa menghasilkan nilai apa saja dari -∞ hingga +∞.

Solusi: Bungkus fungsi linear dengan fungsi sigmoid! Sigmoid akan "menekan" output ke rentang 0-1, mengubahnya menjadi probabilitas.

Klik "Animasikan Transformasi" untuk melihat garis linear berubah menjadi kurva sigmoid

2. Fungsi Sigmoid

σ(z) = 1 / (1 + e^-z)

Sifat-sifat penting fungsi sigmoid:

Output selalu antara 0 dan 1
Fungsi smooth (halus) dan differentiable (dapat diturunkan)
Ketika z = 0 → σ(z) = 0.5 (titik keputusan)
Ketika z → +∞ → σ(z) → 1
Ketika z → -∞ → σ(z) → 0

Turunan sigmoid: σ'(z) = σ(z) · (1 - σ(z)). Turunan ini sangat penting untuk proses belajar (gradient descent) karena memungkinkan kita menghitung seberapa besar perubahan output terhadap perubahan input.

Nilai z: z = 0.0

σ(0.0) = 0.5000 | σ'(0.0) = 0.2500

3. Logistic Regression = Linear + Sigmoid

Logistic regression menggabungkan dua komponen:

z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b (bagian linear)

ŷ = σ(z) = probabilitas kelas 1

Aturan keputusan: jika ŷ ≥ 0.5 → kelas 1, jika ŷ < 0.5 → kelas 0.

Decision boundary (batas keputusan) terjadi di mana σ(z) = 0.5, yaitu saat z = 0, atau: w₁x₁ + w₂x₂ + b = 0.

w1: 1.5 w2: 1.5 b: 0.0

Akurasi: -- | Sesuaikan w1, w2, b atau klik "Auto Fit"

4. Binary Cross-Entropy Loss

Mengapa tidak menggunakan MSE (Mean Squared Error) untuk klasifikasi? Karena landscape-nya tidak convex saat dikombinasikan dengan sigmoid, sehingga optimasi bisa terjebak di local minimum.

L = -[ y · log(ŷ) + (1-y) · log(1-ŷ) ]

Ketika y = 1: L = -log(ŷ) → penalti besar jika prediksi rendah
Ketika y = 0: L = -log(1-ŷ) → penalti besar jika prediksi tinggi

BCE Loss memastikan bahwa model mendapat hukuman yang semakin berat ketika prediksinya jauh dari label yang benar. Ini membuat gradient-nya "bersih" dan optimasi menjadi efisien.

Seret titik pada grafik untuk melihat nilai loss

Klik dan seret titik pada grafik

5. Hubungan dengan Neural Network

Logistic regression adalah fondasi dari neural network:

Satu neuron dengan aktivasi sigmoid = logistic regression!
Banyak neuron = banyak logistic regression berjalan secara paralel
Menambah layer = komposisi (menumpuk) logistic regression
Ini adalah jembatan langsung menuju neural network

Memahami logistic regression dengan baik berarti Anda sudah memahami "atom" penyusun semua neural network modern, dari feedforward sederhana hingga arsitektur transformer yang kompleks.

Klik tombol untuk melihat evolusi dari logistic regression ke neural network

Referensi

D. R. Cox, "The regression analysis of binary sequences," J. Royal Statistical Society B, vol. 20, no. 2, pp. 215-242, 1958.
C. M. Bishop, Pattern Recognition and Machine Learning. Springer, 2006, Ch. 4.
T. M. Mitchell, Machine Learning. McGraw-Hill, 1997, Ch. 4.
I. Goodfellow et al., Deep Learning. MIT Press, 2016, Ch. 6.

← Regresi Multivariat Gradient Descent →