Partial Least Square: Partial Least Square

Partial Least Square

Oleh:

Kelompok 13

Rosani Djabir (H12110259)

Zakiyah Mar’ah (H12110272)

Siti Rahmah H. Jahari (H12110281)

Program Studi Statistika

Jurusan Matematika

Fakultas Matematika Dan Ilmu Pengetahuan Alam

Universitas Hasanuddin

Makassar

2013

METODE KUADRAT TERKECIL PARSIAL

Analisis regresi linear berganda yang mempunyai banyak variabel bebas, sering timbul masalah karena terjadinya hubungan antara dua atau lebih variabel bebasnya. Variabel bebas yang saling berkorelasi disebut multikolinearitas (multicollinearity). Salah satu dari asumsi model regresi linear adalah bahwa tidak terdapat multikolinearitas diantara variabel bebas yang termasuk dalam model.

Multikolinearitas terjadi apabila terdapat hubungan atau korelasi diantara beberapa atau seluruh variabel bebas (Gonst and Mason, 1977 dalam Soemartini, 2008).

Untuk mengetahui adanya multikolinearitas yaitu dengan menghitung koefisien korelasi sederhana antara sesama variabel bebas, jika terdapat koefisien korelasi sederhana yang hampir mendekati ± 1 maka hal tersebut menunjukkan terjadinya masalah multikolinearitas dalam regresi (Walpole, 1988).

Gejala multikolinearitas menimbulkan masalah dalam model regresi. Korelasi antar variabel bebas yang sangat tinggi menghasilkan penduga model regresi yang berbias, tidak stabil, dan mungkin jauh dari nilai prediksinya (Bilfarsah, 2005).

Salah satu cara untuk mendapatkan koefisien regresi pada persamaan regresi linear berganda adalah melalui metode kuadrat terkecil. Metode ini menghasilkan penaksir terbaik (tak bias dan bervarians minimum) jika saja tidak ada korelasi antar variabel bebas. Namun jika hal itu terjadi, ada beberapa cara atau metode yang dapat digunakan untuk mengatasi masalah Multikolinearitas, salah satunya yaitu metode kuadrat terkecil parsial (partial least square).

PLS juga digunakan untuk mereduksi data yang berdimensi tinggi. PLS adalah suatu metode untuk mengkonstruksi model preidiktif yang memiliki jumlah faktor (variable predictor) yang cukup besar dan berkorelasi (Tobias, 1995).

Gambar 1

Gambar 2

pada gambar 1, menjelaskan tentang regresi linier berganda secara umum. Dimana, Y adalah kombinasi linier langsung dari X. Sedangkan pada gambar 2, menjelaskan tentang metode partial least square, dimana terlebih dahulu dibentuk beberapa komponen laten yang merupakan kombinasi linier dari variebel X. komponen laten inilah yang nanti yang digunakan sebagai prediksi menggantikan variabel asli X. Artinya, PLS mereduksi dimensi variabel X.

PLS memodelkan suatu data yang berdimensi tinggi secara umum :

X = TP’ + E (1)

Y = TQ’ + F (2)

dimana: X = matriks variabel bebas

Y = matriks variable respon dengan n observasi sebagai baris dan q-variabel sebagai kolom

T = matriks komponen latent dengan n observasi sebagai baris dan c-variabel sebagai kolom

Q’, P’ = matriks koefisien / loading matriks dengan c-variabel sebagai baris dan q-variabel sebagai kolom.

E, F = matriks error dengan n observasi sebagai baris dan q-variabel sebagai kolom

Matriks P dan Q sering disebut dengan loading, yang menggambarkan bagaimana komponen T berhubungan dengan matriks data original X dan Y.

Matriks komponen latent T adalah kombinasi linear dari variabel-variabel respon X. Kombinasi-kombinasi linear ini yang kemudian digunakan dalam persamaan regresi. Melalui cara ini, informasi-informasi yang tidak relevan dan tidak stabil dihilangkan dan hanya bagian dari variansi variabel X yang paling relevan yang digunakan (Naes, dkk,2004).

Menurut Boulesteix dan Strimmer (2006) komponen latent T dikontruksi dari kombinasi linier variabel-variabel asli :

T = XW

W adalah matriks bobot yang memaksimalkan kovariansi antara variabel respon Y dan komponen latent T (Naes, dkk,2004).

Komponen latent T digunakan sebagai prediksi menggantikan variabel asli X. Setelah T diperoleh, maka dapat diperoleh solusi kuadrat terkecil :

Q’= (T’T)^-1T’Y

Kemudian, matriks koefisien regresi β diperoleh

Β = WQ’

= W(T’T)^-1T’Y

Dan matriks respon Y dituliskan dalam bentuk:

Y = TQ’

= T(T’T)^-1T’Y

Dalam PLS univariat (respon Y terdiri atas 1 kolom), kolom w_i,…,w_c dari matriks bobot p x c didefinisiskan sedemikian rupa sehingga matriks bobot dalam PLS memaksimalkan kovariansi kuadrat sampel antara Y dan T, di bawah kondisi T tidak berkorelasi secara empiris atau T orthogonal (T orthogonal berarti bahwa hasil kali dalam antara entry-entry dalam T adalah nol. Hal ini juga berarti bahwa entry-entry tidak berkorelasi).

Dari data, terlebih dahulu ditentukan bobot untuk variable prediktornya. Matriks bobot W dapat diperoleh dari metodel SIMPLS, yang dikembangkan oleh De Jong (1993) sebagai berikut:

Untuk h=1…c, A₀=X’Y, M₀=X’X, C₀=I, c diketahui maka:

Hitung q_h, vector dominan dari A_h’A_h.
Hitung w_h = A_hq_h, c_h=w_h’M_hw_h, w_h=w_h/sqrt(c_h), w_h yang diperoleh ditempatkan pada W sebagai kolom.
Hitung p_h= M_hw_h, p_h yang diperoleh ditempatkan pada P sebagai kolom.
Hitung q_h=A_h’w_h, q_h yang diperoleh ditempatkan pada Q sebagai kolom.
C_h+1= C_h-v_h v_h’
M_h+1= M_h- p_hp_h’
A_h+1= C_hA_h

Bobot tersebut digunakan untuk menemukan kombinasi transformasi linier dari variable predictor, yakni komponen latent. Matriks komponen latent ini yang nantinya digunakan sebagai variable predictor baru dalam persamaan regresi liniernya, dimana dimensi dari matriks latent ini lebih kecil dibandingkan dengan matriks predictor sebelumnya.

Setelah matriks komponen latent T diperoleh, maka dapat diperoleh solusi kuadrat terkecilnya yakni Q’. Q’ ini digunakan untuk menaksir parameter β. Kemudian, setelah β diketahui maka penaksiran terhadap matriks variable respon dapat diperoleh yakni Y.

Contoh

data diambil dari : http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0020108#pbio-0020108-alizadehl dengan jumlah variabel 4751.

Metode PLS dalam penelitian digunakan untuk mereduksi dimensi data, karena jumlah variabel bebas lebih banyak dibandingkan dengan banyaknya sampel, maka proses pengolahan data dengan metode tersebut digunakan bantuan paket software Matlab versi 7.1.

Berikut Syntax programnya :

clear all;

clc;

disp('W = matrks bobot');

disp('Ytopi = survival times dua');

disp('Pt = Matriks loading untuk var X');

disp('Qt = Matriks loading untuk var Y');

disp('T = Matriks komponen latent');

disp('E = Matriks Error');

disp('CV = Cross Validation');

load xdata.txt;

load ydata.txt;

X=xdata;

X=X';

Y=ydata;

A=X'*Y;

M=X'*X;

n=size (A); n=n(:,1);

C=eye(n);

for h=1:45;

     q=A'*A;

     w=A*q;

     c=w'*M*w;

     w=w/sqrt(c);

     p=M*w;

     q=A'*w;

     v=C*p;

     v=v/(norm(v,2));

     C=C-v*v';

     M=M-p*p';

     A=C*A;

     t=X*w;

W(:,h)=w;

T(:,h)=t;

P(:,h)=p;

Q(:,h)=q;

Pt=P';

Qt=Q';

Ytopi=T*Qt;

B=W*Qt;

E=Ytopi-ydata;

sqr=@(E) E.^2;

Ekud=sqr(E);

sumE=sum(Ekud);

CV=sumE/77;

Ybar=mean (Y);

%keragaman data

SSR=(Ytopi-Ybar);

SSR2=@(SSR) SSR.^2;

SSR1=SSR2(SSR);

SSyy=Y-Ybar;

SSyy2=@(SSyy) SSyy.^2;

SSyy1=SSyy2(SSyy);

SR=sum(SSR1);

Sy=sum(SSyy1);

R2=SR/Sy;

Radj=1-((1-R2)*(78-1)/(78-45));

end

Program yang dibuat pada software ini, menggunakan algoritma SIMPLS. Algoritma ini digunakan untuk menghitung bobot variable predictor dan mereduksi dimensinya. Hasil reduksi kemudian disebut dengan komponen. Dalam algoritma ini, 4751 variabel direduksi menjadi 78 komponen.

Setelah dimensi variabel prediktor direduksi dengan PLS, maka dilakukan pengujian awal kenormalan data hasil reduksi, sekaligus mem-plot kesalahan (error) untuk penggunaan 78 komponen tersebut. Hal ini dilakukan untuk melihat apakah 78 komponen tersebut memenuhi asumsi kenormalan.

Pada gambar plot kesalahan, kita lihat apakah bentuk histogram mendekati simetris (bentuk lonceng), dimana sebagian besar datanya terpusat di tengah-tengah. Jika histogranya terpusat di sekitar titik 0, yang menunjukkan bahwa residual memiliki rata-rata nol, yang berarti bahwa residual dari data memenuhi asumsi kenormalan.

Jika ke-78 komponen telah memenuhi asumsi kenormalan data, maka selanjutnya dilakukan uji validitas terhadap data dengan menggunakan metode Cross-Validation (CV) untuk melihat seberapa banyak komponen yang layak digunakan dalam model selanjutnya. Dalam kasus ini dihitung nilai Predicted Residual Sum of Square (PRESS) untuk setiap banyaknya komponen yang digunakan. Nilai PRESS yang kecil dianggap indicator yang baik untuk penggunaan banyaknya komponen.

Lihat nilai PRESS yang paling kecil terdapat pada penggunaan 45 komponen. Hal ini mendasari bahwa penggunaan komponen yang baik untuk pengolahan data selanjutnya adalah 45. Sejumlah komponen tersebut kemudian dihitung dan di-plot errornya untuk uji kenormalan.

Diperoleh pula koefisien determinasi R² yang menggambarkan keragaman variabel Y yang mampu dijelaskan oleh ke-45 komponen. Dari matlab 7.1 nilai R² untuk 45 komponen adalah 1,00 dan R² adj adalah 1,00. Hal ini berarti bahwa model PLS yang terdiri dari 45 komponen mampu menjelaskan keragaman data (Y) adalah 100%. Hal ini menunjukkan bahwa PLS benar-benar memberikan hasil reduksi (45 komponen) yang baik untuk model regresi.

DAFTAR PUSTAKA

Arniati J. Kalatasik, 2009, Aplikasi Regresi Kuadrat Terkecil Parsial Dan Model Resiko Proporsional Cox Untuk Data Microarray DNA.

Nurhasanah, dkk, 2012, Perbandingan Metode Partial Least Square (PLS) dengan Regresi Komponen Utama untuk Mengatasi Multikolinearitas.

http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CDMQFjAA&url=http%3A%2F%2Fwww.unt.edu%2Frss%2Fclass%2Fmike%2F6810%2FPartial%2520Least%2520Squares.ppt&ei=6-2BUZ6pBoL8rAePo4DoBQ&usg=AFQjCNEB3DiibCCWj4nTMJZA5z4L6Icj2w&sig2=_vST569iixidR5wlqrSKEg&bvm=bv.45960087,d.bmk

http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0020108#pbio-0020108-alizadehl

Partial Least Square

Selasa, 30 April 2013

Partial Least Square

Tidak ada komentar:

Posting Komentar