Selasa, 30 April 2013

Partial Least Square



Partial Least Square


Oleh:
Kelompok 13
 Rosani Djabir (H12110259)
Zakiyah Mar’ah (H12110272)
Siti Rahmah H. Jahari (H12110281)

Program Studi Statistika
Jurusan Matematika
Fakultas Matematika Dan Ilmu Pengetahuan Alam
Universitas Hasanuddin
Makassar
2013



METODE KUADRAT TERKECIL PARSIAL

Analisis regresi linear berganda yang mempunyai banyak variabel bebas, sering timbul masalah karena terjadinya hubungan antara dua atau lebih variabel bebasnya. Variabel bebas yang saling berkorelasi disebut multikolinearitas (multicollinearity). Salah satu dari asumsi model regresi linear adalah bahwa tidak terdapat multikolinearitas diantara variabel bebas yang termasuk dalam model.
Multikolinearitas terjadi apabila terdapat hubungan atau korelasi diantara beberapa atau seluruh variabel bebas (Gonst and Mason, 1977 dalam Soemartini, 2008).
Untuk mengetahui adanya multikolinearitas yaitu dengan menghitung koefisien korelasi sederhana antara sesama variabel bebas, jika terdapat koefisien korelasi sederhana yang hampir mendekati ± 1 maka hal tersebut menunjukkan terjadinya masalah multikolinearitas dalam regresi (Walpole, 1988).
Gejala multikolinearitas menimbulkan masalah dalam model regresi. Korelasi antar variabel bebas yang sangat tinggi menghasilkan penduga model regresi yang berbias, tidak stabil, dan mungkin jauh dari nilai prediksinya (Bilfarsah, 2005).
Salah satu cara untuk mendapatkan koefisien regresi pada persamaan regresi linear berganda adalah melalui metode kuadrat terkecil. Metode ini menghasilkan penaksir terbaik (tak bias dan bervarians minimum) jika saja tidak ada korelasi antar variabel bebas. Namun jika hal itu terjadi, ada beberapa cara atau metode yang dapat digunakan untuk mengatasi masalah Multikolinearitas, salah satunya yaitu metode kuadrat terkecil parsial (partial least square).
PLS juga digunakan untuk mereduksi data yang berdimensi tinggi. PLS adalah suatu metode untuk mengkonstruksi model preidiktif yang memiliki jumlah faktor (variable predictor) yang cukup besar dan berkorelasi (Tobias, 1995).

 Gambar 1

Gambar 2

pada gambar 1, menjelaskan tentang regresi linier berganda secara umum. Dimana, Y adalah kombinasi linier langsung dari X. Sedangkan pada gambar 2, menjelaskan tentang metode partial least square, dimana terlebih dahulu dibentuk beberapa komponen laten yang merupakan kombinasi linier dari variebel X. komponen laten inilah yang nanti yang digunakan sebagai prediksi menggantikan variabel asli X. Artinya, PLS mereduksi dimensi variabel X.

PLS memodelkan suatu data yang berdimensi tinggi secara umum :
X = TP’ + E               (1)
Y = TQ’ + F               (2)

dimana: X         = matriks variabel bebas
Y         = matriks variable respon dengan n observasi sebagai baris dan q-variabel sebagai kolom
T          = matriks komponen latent dengan n observasi sebagai baris dan c-variabel sebagai kolom
Q’, P’  = matriks koefisien / loading matriks dengan c-variabel sebagai baris dan q-variabel sebagai kolom.
E, F     = matriks error dengan n observasi sebagai baris dan q-variabel sebagai kolom

Matriks P dan Q sering disebut dengan loading, yang menggambarkan bagaimana komponen T berhubungan dengan matriks data original X dan Y.
Matriks komponen latent T adalah kombinasi linear dari variabel-variabel respon X. Kombinasi-kombinasi linear ini yang kemudian digunakan dalam persamaan regresi. Melalui cara ini, informasi-informasi yang tidak relevan dan tidak stabil dihilangkan dan hanya bagian dari variansi variabel X yang paling relevan yang digunakan (Naes, dkk,2004).
Menurut Boulesteix dan Strimmer (2006) komponen latent T  dikontruksi dari kombinasi linier variabel-variabel asli :
T = XW
W adalah matriks bobot yang memaksimalkan kovariansi antara variabel respon Y dan komponen latent T (Naes, dkk,2004).
Komponen latent T digunakan sebagai prediksi menggantikan variabel asli X. Setelah T diperoleh, maka dapat diperoleh solusi kuadrat terkecil :
Q’= (T’T)-1T’Y
Kemudian, matriks koefisien regresi β diperoleh
Β  = WQ’
= W(T’T)-1T’Y

Dan matriks respon Y dituliskan dalam bentuk:
Y  = TQ’
= T(T’T)-1T’Y

Dalam PLS univariat (respon Y terdiri atas 1 kolom), kolom wi,…,wc dari matriks bobot p x c didefinisiskan sedemikian rupa sehingga matriks bobot dalam PLS memaksimalkan kovariansi kuadrat sampel antara Y dan T, di bawah kondisi T tidak berkorelasi secara empiris atau T orthogonal (T orthogonal berarti bahwa hasil kali dalam antara entry-entry dalam T adalah nol. Hal ini juga berarti bahwa entry-entry tidak berkorelasi).
Dari data, terlebih dahulu ditentukan bobot untuk variable prediktornya. Matriks bobot W dapat diperoleh dari metodel SIMPLS, yang dikembangkan oleh De Jong (1993) sebagai berikut:
Untuk h=1…c, A0=X’Y, M0=X’X, C0=I, c diketahui maka:
  1. Hitung qh, vector dominan dari Ah’Ah.
  2. Hitung wh = Ahqh, ch=wh’Mhwh, wh=wh/sqrt(ch), wh yang diperoleh ditempatkan pada W sebagai kolom. 
  3. Hitung ph = Mhwh, ph yang diperoleh ditempatkan pada P sebagai kolom. 
  4. Hitung qh=Ah’wh, qh yang diperoleh ditempatkan pada Q sebagai kolom. 
  5. Ch+1  = Ch-vh vh
    Mh+1 = Mh - phph
     
  6. Ah+1 = ChAh
Bobot tersebut digunakan untuk menemukan kombinasi transformasi linier dari variable predictor, yakni komponen latent. Matriks komponen latent ini yang nantinya digunakan sebagai variable predictor baru dalam persamaan regresi liniernya, dimana dimensi dari matriks latent ini lebih kecil dibandingkan dengan matriks predictor sebelumnya.
Setelah matriks komponen latent T diperoleh, maka dapat diperoleh solusi kuadrat terkecilnya yakni Q’. Q’ ini digunakan untuk menaksir parameter β. Kemudian, setelah β diketahui maka penaksiran terhadap matriks variable respon dapat diperoleh yakni Y.

Contoh
Metode PLS dalam penelitian digunakan untuk mereduksi dimensi data, karena jumlah variabel bebas lebih banyak dibandingkan dengan banyaknya sampel, maka proses pengolahan data dengan metode tersebut digunakan bantuan paket software Matlab versi 7.1.
Berikut Syntax programnya :
clear all;
clc;
 
disp('W = matrks bobot');
disp('Ytopi = survival times dua');
disp('Pt = Matriks loading untuk var X');
disp('Qt = Matriks loading untuk var Y');
disp('T = Matriks komponen latent');
disp('E = Matriks Error');
disp('CV = Cross Validation');
load xdata.txt;
load ydata.txt;
X=xdata;
X=X';
Y=ydata;
A=X'*Y;
M=X'*X;
n=size (A); n=n(:,1);
C=eye(n);
 
for h=1:45;
     q=A'*A;
     w=A*q;
     c=w'*M*w;
     w=w/sqrt(c);
     p=M*w;
     q=A'*w;
     v=C*p;
     v=v/(norm(v,2));
     C=C-v*v';
     M=M-p*p';
     A=C*A;
     t=X*w;
 
W(:,h)=w;
T(:,h)=t;
P(:,h)=p;
Q(:,h)=q;
Pt=P';
Qt=Q';
Ytopi=T*Qt;
B=W*Qt;
E=Ytopi-ydata;
sqr=@(E) E.^2;
Ekud=sqr(E);
sumE=sum(Ekud);
CV=sumE/77;
Ybar=mean (Y);
 
%keragaman data
SSR=(Ytopi-Ybar);
SSR2=@(SSR) SSR.^2;
SSR1=SSR2(SSR);
SSyy=Y-Ybar;
SSyy2=@(SSyy) SSyy.^2;
SSyy1=SSyy2(SSyy);
 
SR=sum(SSR1);
Sy=sum(SSyy1);
 
R2=SR/Sy;
Radj=1-((1-R2)*(78-1)/(78-45));
 
end


Program yang dibuat pada software ini, menggunakan algoritma SIMPLS. Algoritma ini digunakan untuk menghitung bobot variable predictor dan mereduksi dimensinya. Hasil reduksi kemudian disebut dengan komponen. Dalam algoritma ini, 4751 variabel direduksi menjadi 78 komponen.
Setelah dimensi variabel prediktor direduksi dengan PLS, maka dilakukan pengujian awal kenormalan data hasil reduksi, sekaligus mem-plot kesalahan (error) untuk penggunaan  78 komponen tersebut. Hal ini dilakukan untuk melihat apakah 78 komponen tersebut memenuhi asumsi kenormalan.
Pada gambar plot kesalahan, kita lihat apakah bentuk histogram mendekati simetris (bentuk lonceng), dimana sebagian besar datanya terpusat di tengah-tengah. Jika histogranya terpusat di sekitar titik 0, yang menunjukkan bahwa residual memiliki rata-rata nol, yang berarti bahwa residual dari data memenuhi asumsi kenormalan.
Jika ke-78 komponen telah memenuhi asumsi kenormalan data, maka selanjutnya dilakukan uji validitas terhadap data dengan menggunakan metode Cross-Validation (CV) untuk melihat seberapa banyak komponen yang layak digunakan dalam model selanjutnya. Dalam kasus ini dihitung nilai Predicted Residual Sum of Square (PRESS) untuk setiap banyaknya komponen yang digunakan. Nilai PRESS yang kecil dianggap indicator yang baik untuk penggunaan banyaknya komponen.
Lihat nilai PRESS yang paling kecil terdapat pada penggunaan 45 komponen. Hal ini mendasari bahwa penggunaan komponen yang baik untuk pengolahan data selanjutnya adalah 45. Sejumlah komponen tersebut kemudian dihitung dan di-plot errornya untuk uji kenormalan.
Diperoleh pula koefisien determinasi R2 yang menggambarkan keragaman variabel Y yang mampu dijelaskan oleh ke-45 komponen. Dari matlab 7.1 nilai R2 untuk 45 komponen adalah 1,00 dan R2 adj adalah 1,00. Hal ini berarti bahwa model PLS yang terdiri dari 45 komponen mampu menjelaskan keragaman data (Y) adalah 100%. Hal ini menunjukkan bahwa PLS benar-benar memberikan hasil reduksi (45 komponen) yang baik untuk model regresi.


DAFTAR PUSTAKA

Arniati J. Kalatasik, 2009, Aplikasi Regresi Kuadrat Terkecil Parsial Dan Model Resiko Proporsional Cox Untuk Data Microarray DNA.