Secara umum, analisis regresi linier digunakan untuk memodelkan dan menganalisis hubungan antara variabel prediktor terhadap variabel respon. Variabel prediktor/bebas/independen adalah variabel yang dapat menyebabkan perubahan atau yang memberikan pengaruh terhadap variabel respon. Sedangkan variabel respon/terikat/dependen adalah variabel yang dipengaruhi oleh variabel prediktor. Skala data pada variabel respon yang digunakan dalam analisis regresi linier adalah skala interval maupun rasio.

Tantangan akan muncul jika skala data pada variabel respon adalah kategorik (nominal atau ordinal). Secara khusus artikel ini akan membahas model regresi dengan variabel respon berbentuk kategori biner (0/1). Salah satu model yang dapat digunakana dalah model regresi logistik biner. Model ini memungkinkan membentuk model regresi dengan variabel respon berbentuk biner.

Beberapa contoh kategori respon biner antara lain : Hidup/Mati, Sukses/Gagal, Setuju/Tidak Setuju dan lain sebagainya.

Secara umum, model regresi logistik biner didefinisikan sebagai :


Selain pembentukan model, salah satu hal terpenting dalam regresi logistik biner adalah terkait dengan interpretasi model yang terbentuk. Berikut akan dijelaskan tahapan dalam melakukan analisis regresi logistik biner menggunakan R. Penjelasan terkait interpretasi maupun asumsi akan dijelaskan pada kesempatan lainnya.


Permasalahan

Suatu lembaga riset sedang melakukan penelitian terkait dengan suatu wabah penyakit yang menyerang jenis burung A pada suatu wilayah. Penelitian ini mengamati keadaan burung A tersebut dari awal terjangkit sampai dengan 10 hari ke depan apakah kewan tersebut akan bertahan (1) atau akan mati (0). Beberapa faktor yang diamati antara lain rata-rata jarak tempuh terbang harian dan rata-rata berat badan yang diukur setiap hari. Penelitian ini menggunakan sampel sebanyak 30 ekor burung jenis A yang terindikasi terserang wabah. Data tabel hasil penelitian ditampilkan sebagai berikut, serta dapat diunduh dengan klik DISINI kemudian pilih data dengan nomor urut 51.


Lakukan analisis regresi logistik biner untuk mengetahui peluang burung A akan bertahan atau mati dengan 2 faktor yang diamati. Variabel respon (Y) dalam penelitian ini adalah 1 = bertahan dan 0 = mati. Sedangkan variabel prediktor 1 (X1) adalah jarak tempuh dan prediktor 2 (X2) adalah berat badan.

(catatan: data yang digunakan adalah data buatan untuk mempermudah pemahaman)


Struktur Data

Permasalahan pada input data yang sering ditemui adalah bentuk dan struktur data yang digunakan. Secara umum terdapat 2 bentuk dan struktur data yang dapat digunakan yaitu data individu dan berkelompok. Penyusunan data secara individu dijelaskan sebagai berikut atau sesuai dengan contoh data yang akan digunakan pada artikel ini.


Sedangkan penyusunan data secara kelompok dijelaskan pada gambar berikut berdasarkan data keadaan sembuh berdasarkan dosis obat:


Bentuk data yang digunakan pada artikel ini adalah bentuk individu. Sedangkan untuk data berkelompok, terdapat beberapa tambahan perintah dalam melakukan input data.


Input Data

Input data dapat dilakukan dengan cara import data yang telah disediakan sebelumnya. Cara import data dapat dilihat pada artikel berikut:

Tutorial R : Cara Alternatif untuk Import Data pada R dan RStudio

Setelah data terinput pada R, tahap selanjutnya adalah melakukan pemanggilan perintah dan definisi variabel.


Perintah

Perintah yang digunakan secara kesuluruhan adalah sebagai berikut:

setwd("D:/")
data = read.delim2("data reg logistik biner.txt")
y = data$Y
x1 = data$X1
x2 = data$X2
fit = glm(y ~ x1 + x2, family = binomial(link = logit))
summary(fit)

Penjelasan dari perintah tersebut dijelaskan sebagai berikut:

Baris 1 : Digunakan untuk mengatur folder sesuai tahap input data. 
Baris 2 : Digunakan untuk import data dengan ekstensi *.txt.
Baris 3 : Pendefinisian variabel y berdasarkan kolom Y dari data.
Baris 4 : Pendefinisian variabel x1 berdasarkan kolom X1 dari data.
Baris 5 : Pendefinisian variabel x2 berdasarkan kolom X2 dari data.
Baris 6 : Perintah utama model dari variabel respon y dan prediktor x1 x2.
Baris 7 : Menampilkan hasil pemodelan pada baris 6.

Berdasarkan perintah yang telah dijalankan, hasil yang diperoleh adalah sebagai berikut:


Model

Model yang terbentuk dari hasil analisis yang telah dilakukan adalah sebagai berikut:


Signifikansi Parameter

Berdasarkan hasil yang diperoleh, menggunakan H0 adalah tidak terdapat pengaruh signifikan antara variabel prediktor terhadap respon, maka terlihat bahwa seluruh nilai P-Value lebih besar dari alpha (5%) dengan P-Value x1 (0,458) dan P-Value x2 (0,621). Hal ini menyebabkan H0 gagal ditolak untuk x1 maupun x2. Berdasarkan hasil tersebut dapat disimpulkan bahwa berdasarkan taraf signifikansi alpha 5%, tidak terdapat pengaruh parsial antara variabel x1 terhadap y maupun variabel x2 terhadap y.


Akurasi Prediksi

Walaupun kedua variabel tidak signifikan dalam model, tingkat keakuratan model dalam memprediksi dapat dilihat menggunakan perintah sebagai berikut:

table(true =  y, pred = round(fitted(fit)))

Serta hasil sebagai berikut:





Hasil tersebut menunjukan bahwa sebanyak 19 sampel yang bertahan tepat diprediksi akan bertahan dan 2 sampel yang mati tepat diprediksi akan mati. Sedangkan terdapat 9 sampel yang mati namun diprediksi akan hidup yang menandakan hasil ini adalah sebuah kesalahan.

Beberapa hasil maupun kesimpulan yang diperoleh akan selalu selaras dengan hasil dari uji signifikansi parameter, dimana pada artikel ini seluruh variabel prediktor tidak signifikan dalam memperngaruhi variabel respon.

Beberapa pengujian lainnya dapat dilakukan pada model regresi logistik biner. Beberapa sumber yang dapat dijadikan rujuan antara lain :

Agresti, A. 2015. Foundations of Linear and Generalized Linear Models. New Jersey: Wiley

Dunn, Peter K., Smyth, Gordon K. 2018. Generalized Linear Models With Examples in R. New York: Springer


Post a Comment