Partial Least Square
Oleh:
Kelompok 13
Rosani Djabir (H12110259)
Zakiyah Mar’ah (H12110272)
Siti Rahmah H. Jahari (H12110281)
Program Studi Statistika
Jurusan Matematika
Fakultas Matematika Dan Ilmu
Pengetahuan Alam
Universitas Hasanuddin
Makassar
2013
METODE KUADRAT
TERKECIL PARSIAL
Analisis regresi linear berganda yang mempunyai
banyak variabel bebas, sering timbul masalah karena terjadinya hubungan antara
dua atau lebih variabel bebasnya. Variabel bebas yang saling berkorelasi
disebut multikolinearitas (multicollinearity). Salah satu dari asumsi
model regresi linear adalah bahwa tidak terdapat multikolinearitas diantara
variabel bebas yang termasuk dalam model.
Multikolinearitas terjadi apabila terdapat hubungan
atau korelasi diantara beberapa atau seluruh variabel bebas (Gonst and Mason,
1977 dalam Soemartini, 2008).
Untuk mengetahui adanya multikolinearitas yaitu
dengan menghitung koefisien korelasi sederhana antara sesama variabel bebas,
jika terdapat koefisien korelasi sederhana yang hampir mendekati ± 1 maka hal tersebut
menunjukkan terjadinya masalah multikolinearitas dalam regresi (Walpole, 1988).
Gejala multikolinearitas menimbulkan masalah dalam
model regresi. Korelasi antar variabel bebas yang sangat tinggi menghasilkan
penduga model regresi yang berbias, tidak stabil, dan mungkin jauh dari nilai
prediksinya (Bilfarsah, 2005).
Salah satu cara untuk mendapatkan koefisien regresi
pada persamaan regresi linear berganda adalah melalui metode kuadrat terkecil.
Metode ini menghasilkan penaksir terbaik (tak bias dan bervarians minimum) jika
saja tidak ada korelasi antar variabel bebas. Namun jika hal itu terjadi, ada
beberapa cara atau metode yang dapat digunakan untuk mengatasi masalah
Multikolinearitas, salah satunya yaitu metode kuadrat terkecil parsial (partial
least square).
PLS juga digunakan untuk mereduksi data yang
berdimensi tinggi. PLS adalah suatu metode untuk mengkonstruksi model
preidiktif yang memiliki jumlah faktor (variable predictor) yang cukup besar
dan berkorelasi (Tobias, 1995).
Gambar 1
Gambar 2
pada
gambar 1, menjelaskan tentang regresi linier berganda secara umum. Dimana, Y
adalah kombinasi linier langsung dari X. Sedangkan pada gambar 2, menjelaskan
tentang metode partial least square, dimana terlebih dahulu dibentuk beberapa komponen
laten yang merupakan kombinasi linier dari variebel X. komponen laten inilah
yang nanti yang digunakan sebagai prediksi menggantikan variabel asli X. Artinya,
PLS mereduksi dimensi variabel X.
PLS memodelkan suatu data yang berdimensi tinggi
secara umum :
X = TP’ + E (1)
Y = TQ’ + F (2)
dimana:
X = matriks variabel bebas
Y = matriks variable respon dengan n observasi sebagai baris dan q-variabel sebagai kolom
T = matriks komponen latent dengan n observasi sebagai baris dan
c-variabel sebagai kolom
Q’, P’ =
matriks koefisien / loading matriks
dengan c-variabel sebagai baris dan q-variabel sebagai kolom.
E, F =
matriks error dengan n observasi
sebagai baris dan q-variabel sebagai
kolom
Matriks P dan Q sering
disebut dengan loading, yang
menggambarkan bagaimana komponen T berhubungan dengan matriks data original X
dan Y.
Matriks komponen latent T adalah kombinasi linear dari
variabel-variabel respon X. Kombinasi-kombinasi linear ini yang kemudian
digunakan dalam persamaan regresi. Melalui cara ini, informasi-informasi yang
tidak relevan dan tidak stabil dihilangkan dan hanya bagian dari variansi
variabel X yang paling relevan yang digunakan (Naes, dkk,2004).
Menurut Boulesteix dan
Strimmer (2006) komponen latent T
dikontruksi dari kombinasi linier variabel-variabel asli :
T
= XW
W adalah matriks bobot
yang memaksimalkan kovariansi antara variabel respon Y dan komponen latent T (Naes, dkk,2004).
Komponen latent T
digunakan sebagai prediksi menggantikan variabel asli X. Setelah T diperoleh,
maka dapat diperoleh solusi kuadrat terkecil :
Q’=
(T’T)-1T’Y
Kemudian, matriks koefisien regresi β
diperoleh
Β = WQ’
= W(T’T)-1T’Y
Dan matriks respon Y dituliskan dalam
bentuk:
Y
= TQ’
=
T(T’T)-1T’Y
Dalam PLS univariat
(respon Y terdiri atas 1 kolom), kolom wi,…,wc dari
matriks bobot p x c didefinisiskan sedemikian rupa sehingga matriks bobot dalam
PLS memaksimalkan kovariansi kuadrat sampel antara Y dan T, di bawah kondisi T
tidak berkorelasi secara empiris atau T orthogonal (T orthogonal berarti bahwa
hasil kali dalam antara entry-entry dalam T adalah nol. Hal ini juga berarti
bahwa entry-entry tidak berkorelasi).
Dari
data, terlebih dahulu ditentukan bobot untuk variable prediktornya. Matriks
bobot W dapat diperoleh dari metodel SIMPLS, yang dikembangkan oleh De Jong
(1993) sebagai berikut:
Untuk
h=1…c, A0=X’Y, M0=X’X, C0=I, c diketahui maka:
- Hitung qh, vector dominan dari Ah’Ah.
- Hitung wh = Ahqh, ch=wh’Mhwh, wh=wh/sqrt(ch), wh yang diperoleh ditempatkan pada W sebagai kolom.
- Hitung ph = Mhwh, ph yang diperoleh ditempatkan pada P sebagai kolom.
- Hitung qh=Ah’wh, qh yang diperoleh ditempatkan pada Q sebagai kolom.
- Ch+1 = Ch-vh vh’
Mh+1 = Mh - phph’ - Ah+1 = ChAh
Bobot
tersebut digunakan untuk menemukan kombinasi transformasi linier dari variable
predictor, yakni komponen latent. Matriks komponen latent ini yang nantinya
digunakan sebagai variable predictor baru dalam persamaan regresi liniernya,
dimana dimensi dari matriks latent ini lebih kecil dibandingkan dengan matriks
predictor sebelumnya.
Setelah
matriks komponen latent T diperoleh, maka dapat diperoleh solusi kuadrat
terkecilnya yakni Q’. Q’ ini digunakan untuk menaksir parameter β. Kemudian,
setelah β diketahui maka penaksiran terhadap matriks variable respon dapat
diperoleh yakni Y.
Contoh
data diambil dari : http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0020108#pbio-0020108-alizadehl
dengan jumlah variabel 4751.
Metode
PLS dalam penelitian digunakan untuk mereduksi dimensi data, karena jumlah variabel
bebas lebih banyak dibandingkan dengan banyaknya sampel, maka proses pengolahan
data dengan metode tersebut digunakan bantuan paket software Matlab versi 7.1.
Berikut
Syntax programnya :
clear all; clc; disp('W = matrks bobot'); disp('Ytopi = survival times dua'); disp('Pt = Matriks loading untuk var X'); disp('Qt = Matriks loading untuk var Y'); disp('T = Matriks komponen latent'); disp('E = Matriks Error'); disp('CV = Cross Validation'); load xdata.txt; load ydata.txt; X=xdata; X=X'; Y=ydata; A=X'*Y; M=X'*X; n=size (A); n=n(:,1); C=eye(n); for h=1:45; q=A'*A;
w=A*q;
c=w'*M*w;
w=w/sqrt(c);
p=M*w;
q=A'*w;
v=C*p;
v=v/(norm(v,2));
C=C-v*v';
M=M-p*p';
A=C*A;
t=X*w;
W(:,h)=w; T(:,h)=t; P(:,h)=p; Q(:,h)=q; Pt=P'; Qt=Q'; Ytopi=T*Qt; B=W*Qt; E=Ytopi-ydata; sqr=@(E) E.^2; Ekud=sqr(E); sumE=sum(Ekud); CV=sumE/77; Ybar=mean (Y); %keragaman data SSR=(Ytopi-Ybar); SSR2=@(SSR) SSR.^2; SSR1=SSR2(SSR); SSyy=Y-Ybar; SSyy2=@(SSyy) SSyy.^2; SSyy1=SSyy2(SSyy); SR=sum(SSR1); Sy=sum(SSyy1); R2=SR/Sy; Radj=1-((1-R2)*(78-1)/(78-45)); end |
Program
yang dibuat pada software ini, menggunakan algoritma SIMPLS. Algoritma ini
digunakan untuk menghitung bobot variable predictor dan mereduksi dimensinya.
Hasil reduksi kemudian disebut dengan komponen. Dalam algoritma ini, 4751 variabel
direduksi menjadi 78 komponen.
Setelah
dimensi variabel prediktor direduksi dengan PLS, maka dilakukan pengujian awal
kenormalan data hasil reduksi, sekaligus mem-plot kesalahan (error) untuk
penggunaan 78 komponen tersebut. Hal ini
dilakukan untuk melihat apakah 78 komponen tersebut memenuhi asumsi kenormalan.
Pada
gambar plot kesalahan, kita lihat apakah bentuk histogram mendekati simetris
(bentuk lonceng), dimana sebagian besar datanya terpusat di tengah-tengah. Jika
histogranya terpusat di sekitar titik 0, yang menunjukkan bahwa residual
memiliki rata-rata nol, yang berarti bahwa residual dari data memenuhi asumsi
kenormalan.
Jika
ke-78 komponen telah memenuhi asumsi kenormalan data, maka selanjutnya
dilakukan uji validitas terhadap data dengan menggunakan metode Cross-Validation (CV) untuk melihat
seberapa banyak komponen yang layak digunakan dalam model selanjutnya. Dalam
kasus ini dihitung nilai Predicted
Residual Sum of Square (PRESS) untuk setiap banyaknya komponen yang
digunakan. Nilai PRESS yang kecil dianggap indicator yang baik untuk penggunaan
banyaknya komponen.
Lihat
nilai PRESS yang paling kecil terdapat pada penggunaan 45 komponen. Hal ini
mendasari bahwa penggunaan komponen yang baik untuk pengolahan data selanjutnya
adalah 45. Sejumlah komponen tersebut kemudian dihitung dan di-plot errornya
untuk uji kenormalan.
Diperoleh
pula koefisien determinasi R2 yang menggambarkan keragaman variabel
Y yang mampu dijelaskan oleh ke-45 komponen. Dari matlab 7.1 nilai R2
untuk 45 komponen adalah 1,00 dan R2 adj adalah 1,00. Hal ini
berarti bahwa model PLS yang terdiri dari 45 komponen mampu menjelaskan
keragaman data (Y) adalah 100%. Hal ini menunjukkan bahwa PLS benar-benar
memberikan hasil reduksi (45 komponen) yang baik untuk model regresi.
DAFTAR
PUSTAKA
Arniati
J. Kalatasik, 2009, Aplikasi Regresi Kuadrat Terkecil Parsial Dan Model Resiko
Proporsional Cox Untuk Data Microarray
DNA.
Nurhasanah, dkk, 2012, Perbandingan Metode Partial Least Square (PLS)
dengan Regresi Komponen Utama untuk Mengatasi Multikolinearitas.