רגרסיה לוגיסטית

מהי רגרסיה לוגיסטית?
מתי נשתמש ברגרסיה לוגיסטית?

רגרסיה לוגיסטית היא רגרסיה בה המשתנה התלוי הוא בינארי – כלומר, יש בו רק שתי קטגוריות (כמו "כן" ו-"לא", או "גבר" ו-"אישה"), המוצגות באמצעות הערכים 0 ו-1.
בשימוש במודל זה נקבל פונקציה של ההסתברות לערך 1 כפונקציה של המשתנים הבלתי-תלויים, כלומר: מה הסיכוי שהערך של המשתנה התלוי יהיה 1 כפונקציה של המשתנים הבלתי-תלויים?
נשתמש ברגרסיה לוגיסטית כאשר המשתנה המוסבר הוא בסולם קטגוריאלי בעל שני ערכים בלבד.
למשל, נבדוק כיצד מצב משפחתי וגובה המשכורת משפיעים על הבעלות על דירה. האם גובה משכורת או מצב משפחתי יכולים לנבא את הסיכוי שהנבדק בעל דירה?
הבעלות על דירה היא משתנה בינארי – במקרה זה, 0 מציין שהנבדק אינו בעל דירה ו-1 מציין שהנבדק בעל דירה.

רגרסיה לוגיסטית ב-SPSS מתבצעת באופן הבא:

נבחר
Analyze->Regression->Binary Logistic

logreg01

נעביר את המשתנה התלוי לתיבת Dependent ואת המשתנים הבלתי-תלויים לתיבת Covariates.

logreg02

אם ישנם משתנים קטגוריאלים בין המשתנים הבלתי-תלויים, נלחץ על Categorical.
בדוגמה שלנו, משתנה המצב המשפחתי הוא משתנה קטגוריאלי ובו 4 קטגוריות: 0 מציין שהנבדק רווק, 1 מציין שהוא בזוגיות, 2 מציין שהוא בזוגיות עם ילדים ו-4- שהוא פרוד או גרוש.

logreg03

בחלון שיפתח נעביר את המשתנה הקטגוריאלי אל תיבת Categorical Covariates:

logreg04

נלחץ על Continue ובחלון הרגרסיה הראשי נלחץ על Options.

logreg05

נסמן את האפשרויות Classification Plots ו-Hosmer-Lemesshow goodness-of-fit ולחץ על Continue.

logreg06

להרצת הניתוח נלחץ על OK.

פירוש הפלט והבנת התוצאות

SPSS מספק פלט רב בהרצת רגרסיה לוגיסטית, אך אנו נתמקד בטבלאות המרכזיות החשובות להבנת הפלט.
כל הטבלאות מופיעות פעמיים, בשני בלוקים. נפנה לטבלאות תחת Block 1 שמייצגות את המודל שבנינו.

הראשונה היא טבלת Omnibus Tests of Model Coefficients. כאן, תחת שורת Model, נמצא את ערך חי-בריבוע ואת מובהקות המודל. אלו דרושים להצגת התוצאות וכן להבנת המודל. ניתן לראות בשלה זה שהמודל שבנינו מובהק וזה מאפשר לנו לדחות את השערת האפס ולהגיד כי מצאנו קשר בין המשתנה התלוי למשתנים הבלתי-תלויים.

logreg07

הטבלה הבאה היא Model Summary. בטבלה זו ניתן לראות את אחוז השונות המוסברת, כלומר כמה מהשונות במשתנה התלוי מוסברת על-ידי המודל (ערך זה מקביל לערך R2 ברגרסיה לינארית). חישוב אחוז השונות מופיע בשתי שיטות: Cox & Snell ו-Nagelkerke והוא נע בין 14.5% ל-19.4%. נהוג לדווח על אחוז השונות המוסברת לפי Nagelkerke וכך נעשה בהמשך.

logreg08

טבלה נוספת שכדאי לבחון היא Classification Table. כזכור, רגרסיה לוגיסטית נותנת את ההסתברות לערך 1 (במקרה זה, הסיכוי להיות בעל דירה) כפוקנציה של המשתנים הבלתי תלויים. SPSS מתייחס
בניתוח זה לכל ערך גבוה מ-0.5 כ-1 ("בעל דירה") ולכל ערך נמוך מ-0.5 כאל 0 ("לא בעל דירה"), ואף מציין זאת בתחתית הטבלה: The cut value is .500.
נרצה להעריך את יכולתנו לנבא את המשתנה התלוי לפי המשתנים הבלתי-תלויים שהשתמשנו בהם, כדרך נוספת להבין את מידת ההתאמה של המודל.
בטבלה זו נמצא מידע רב – ראשית כל, מסוכמים המקרים שנצפו בניסוי תחת משבצת Observed. המקרים ש-SPSS מנבא בעזרת משתני המודל נמצאים במשבצת Predicted. כמו כן מצויינת מידת ההתאמה בין הערכים הנצפים לערכים המנובאים ב-Percentage Correct.

logreg09

כעת נפנה לטבלת Variables in the Equation, בה נראה את התרומה של כל אחד מהמשתנים הבלתי-תלויים למודל וכן את המובהקות הסטטיסטית של כל משתנה. בטבלה נראה עבור כל משתנה בלתי-תלוי את תרומתו למודל ואת מובהקות תרומתו. ערך Wald הוא הערך באמצעותו מחושבת המובהקות על-פי מספר דרגות החופש, בדומה לערכי F או t ברגרסיות או בניתוח שונות, בהתאמה.

הערכים החשובים ביותר הם ערך ה-Sig, שמראה את מובהקותה של תרומת המשתנה למודל. ערך חשוב נוסף הוא (Exp(B, מדד למידה שבה המשתנה משפיע על הסיכוי לערך 1 במשתנה הבלתי-תלוי. לדוגמה, במודל שלנו לא נמצאה תרומה מובהקת לאף אחד מהסטטוסים המשפחתיים של הנבדקים (עבור כולם p>0.05). לעומת זאת, התרומה של הכנסתו של הנבדק למודל הנה מובהקת (p=0.003). יתרה מזאת, ערך (Exp(B הוא חיובי ושווה ל-2.5. כלומר, משתנה הכנסתו של הנבדק מסבירה את הסיכוי להיות בעל דירה ויכולה להגדיל את ה"סיכוי" של אותו נבדק להיות בעל דירה פי עד 1.5, בהשוואה לנבדקים אחרים.

logreg10

כיצד נציג את התוצאות?

נכתוב:
בכדי לבחון את ההשפעה של מצב משפחתי ורמת הכנסה על הסיכוי של הנבדק להיות בעל דירה ביצענו רגרסיה לוגיסטית. מודל הרגרסיה נמצא מובהק סטטיסטית (c24=10.218, p=0.037). המודל הסביר 19.4% (Nagelkerke R2) מהשונות בבעלות על דירות. נמצא כי הכנסה יכולה להעלות את הסיכוי לבעלות על דירה ב-150% (p=0.03), אם כי לא נמצאה השפעה של הסטטוס המשפחתי על הסיכוי לבעלות על דירה.
נוסיף את סיכום הערכים בטבלה:

logreg11

ראוי לציין כי בדוגמה לדקהלן הסטטוס המשפחתי של הנבדק לא השפיע באופן מובהק על המשתנה הבלתי-תלוי, לכן ניתן לערוך ניתוח נוסף ובו משתנה הכנסתו של הנבדק בלבד. לאחר מכן נשווה בין המודלים לבחירת המודל המועדף.

שימושים נוספים

עוד ראוי לציין כי ניתן להשתמש ברגרסיה לוגיסטית בכדי לשמור את הסיכוי המוערך של כל שורה (נבדק) לערך 1 לפי המשתנים הבלתי תלויים – ובדוגמה שלנו, את הסיכוי להיות בעל דירה עבור כל אחד מהנבדקים לפי הנתונים אודותיו. ערך זה שימושי בניתוחים נוספים.

בפונקציה שימושית זאת נעשה שימוש באמצעות לחיצה על Save בחלון הרגרסיה טרם הרצתה:

logreg12

וסימון האפשרות Probabilities בחלון שיפתח.

logreg13

לאחר הרצת הרגרסיה תשמר ההסתברות כמשתנה חדש בשם PRE_1.


האם הערך היה לכם לעזר?

במידה וכן, לחצו:

במידה והייתם מעוניינים שנשפר את הערך, שתפו אותנו ונעדכן אתכם ברגע שנכניס שינויים.
לידיעתכם, נעשה שימוש בכתובת המייל שלכם אך ורק לשם עדכון בנוגע לערך ותו לא!