Bab 2: Persamaan Linear

Fondasi matematika di balik Machine Learning — dari garis lurus hingga neuron

1. Persamaan Garis Lurus (y = mx + b)

Persamaan garis lurus adalah model matematika paling sederhana yang menggambarkan hubungan antara dua variabel. Dalam konteks Machine Learning, persamaan ini ditulis sebagai y = wx + b, di mana:

m (atau w) = slope/gradien — menentukan kemiringan garis. Nilai positif berarti garis naik ke kanan, nilai negatif berarti garis turun ke kanan.
b = intercept/bias — titik di mana garis memotong sumbu y (ketika x = 0).
x = variabel input (fitur/feature)
y = variabel output (prediksi/target)

Meskipun terlihat sederhana, persamaan garis lurus adalah fondasi utama dari hampir semua algoritma Machine Learning. Setiap neuron dalam neural network, pada dasarnya, melakukan operasi linear ini sebelum menerapkan fungsi aktivasi.

y = 1.00x + 0.00

Slope (m): 1.0

Intercept (b): 0.0

2. Dari Garis Lurus ke Neuron

Hubungan antara persamaan garis lurus dan neural network sangatlah erat. Sebuah neuron tunggal dalam neural network pada dasarnya melakukan operasi yang sama: y = wx + b, lalu menambahkan fungsi aktivasi di atasnya.

Tanpa fungsi aktivasi, sebuah neuron hanyalah persamaan garis lurus.
Fungsi aktivasi (seperti sigmoid, ReLU) mengubah output linear menjadi non-linear.
Non-linearitas inilah yang memungkinkan neural network mempelajari pola-pola yang kompleks.

Perhatikan perbandingan di bawah: sisi kiri menunjukkan garis lurus biasa, sisi kanan menunjukkan neuron tunggal. Tekan tombol "Tambah Aktivasi" untuk melihat bagaimana fungsi sigmoid mengubah garis lurus menjadi kurva.

3. Simple Linear Regression

Tujuan dari regresi linear sederhana adalah menemukan garis terbaik yang paling cocok (fit) dengan data yang ada. Garis "terbaik" adalah garis yang meminimalkan total error, yaitu jarak dari setiap titik data ke garis tersebut.

Fungsi Error (Loss Function)

Error = Σ(y_i − ŷ_i)² = Σ(y_i − (mx_i + b))²

Di mana y_i adalah nilai sebenarnya dan ŷ_i adalah nilai prediksi dari garis. Garis merah vertikal pada grafik di bawah menunjukkan residual — jarak antara titik data dan garis prediksi.

Total Error (SSE): 0.00

Slope (m): 0.5

Intercept (b): 0.0

4. Ordinary Least Squares (OLS)

Metode Ordinary Least Squares memberikan solusi analitik (closed-form) untuk menemukan nilai optimal dari m dan b. Artinya, kita bisa langsung menghitung nilai terbaik tanpa perlu iterasi (berbeda dengan gradient descent).

Rumus OLS

m = Σ(x_i − x̄)(y_i − ȳ) / Σ(x_i − x̄)²

b = ȳ − m · x̄

Contoh Perhitungan Step-by-Step

Misalkan kita punya data berikut:

Data: (1, 2), (2, 4), (3, 5), (4, 4), (5, 6)

Langkah 1: Hitung rata-rata
x̄ = (1+2+3+4+5)/5 = 3.0
ȳ = (2+4+5+4+6)/5 = 4.2

Langkah 2: Hitung pembilang (numerator)
Σ(x_i−x̄)(y_i−ȳ) = (1−3)(2−4.2) + (2−3)(4−4.2) + (3−3)(5−4.2) + (4−3)(4−4.2) + (5−3)(6−4.2)
= (−2)(−2.2) + (−1)(−0.2) + (0)(0.8) + (1)(−0.2) + (2)(1.8)
= 4.4 + 0.2 + 0 + (−0.2) + 3.6 = 8.0

Langkah 3: Hitung penyebut (denominator)
Σ(x_i−x̄)² = (−2)² + (−1)² + 0² + 1² + 2² = 4+1+0+1+4 = 10.0

Langkah 4: Hitung m dan b
m = 8.0 / 10.0 = 0.8
b = 4.2 − 0.8 × 3.0 = 4.2 − 2.4 = 1.8

Hasil: y = 0.8x + 1.8

Metode OLS bekerja sangat baik untuk regresi linear sederhana. Namun, untuk model yang lebih kompleks (neural network, deep learning), kita membutuhkan metode iteratif seperti Gradient Descent yang akan dipelajari di bab selanjutnya.

5. Mengapa Garis Lurus Penting?

Persamaan garis lurus adalah fondasi dari hampir seluruh konsep dalam Machine Learning dan Deep Learning. Berikut adalah peta bagaimana persamaan linear terhubung ke berbagai konsep yang akan kita pelajari:

Linear Regression — Prediksi nilai kontinu. Langsung menggunakan y = wx + b untuk memodelkan hubungan antar variabel. (Bab ini & Bab 3)

Logistic Regression — Klasifikasi. Menambahkan fungsi sigmoid pada output linear: σ(wx + b) untuk menghasilkan probabilitas. (Bab 4)

Neural Network — Setiap neuron melakukan operasi linear (wx + b) lalu menerapkan fungsi aktivasi. Jaringan dari banyak neuron membentuk model yang sangat kuat. (Bab 7)

Deep Learning — Terdiri dari banyak lapisan operasi linear + non-linear. Transformer, BERT, dan GPT semuanya dibangun di atas operasi linear dasar. (Bab 10-12)

Diagram: Dari persamaan linear menuju arsitektur AI modern

Referensi

T. M. Mitchell, Machine Learning. New York: McGraw-Hill, 1997.
C. M. Bishop, Pattern Recognition and Machine Learning. New York: Springer, 2006, Ch. 3.
I. Goodfellow et al., Deep Learning. MIT Press, 2016, Ch. 5.

← Sebelumnya: Data & Machine Learning Selanjutnya: Regresi Multivariat →