רגרסיה לינארית

מהי רגרסיה לינארית?
מתי נשתמש ברגרסיה לינארית?

ברגרסיה לינארית נשתמש כאשר אנו מעוניינים לחזות את ערכו של משתנה מסוים באמצעות משתנה או משתנים אחרים. למשל, במדע מנסים לחזות דברים שונים, כמו את רמת ההכנסה לפי מספר שנות הלימוד של אדם, הסיכוי לחלות במחלה מסוימת לפי גילו של אדם ומשתנים סביבתיים שונים וכו'.
המשתנה אותו אנו מעוניינים לחזות נקרא המשתנה התלוי ומסומן ב-Y, בעוד שהמשתנים באמצעותם נחזה את ערכו של Y נקראים משתנים בלתי-תלויים ויסומנו ב-X. רגרסיה לינארית תשמש אותנו בהנחה שהקשר בין המשתנים הוא לינארי, כלומר ניתן לתארה לפי המשוואה:
Y=aX+b
שימו לב, Y הוא המשתנה התלוי (או: המוסבר), X הוא המשתנה הבלתי-תלוי (או: המסביר), ואלו a ו-b הם פרמטרים קבועים.משוואה זו מתאימה למקרה בו יש משתנה תלוי יחיד, הוא ה-X במשוואה. נתמקד במקרה שבו ישנו משתנה בלתי-תלוי יחיד.
אם קיימים מספר משתנים תלויים, הרי שהמשוואה תכיל יותר משתנים בלתי-תלויים:
…Y=aX1+aX2+aX3+b
אך כאמור, נתמקד במקרה שבו יש משתנה בלתי-תלוי יחיד.
ברגרסיה לינארית נשתמש כאשר המשתנים, הן התלוי והן הבלתי-תלוי, הם משתנים רציפים וכאשר הקשר בניהם צפוי להיות לינארי. תנאים נוספים לשימוש ברגרסיה לינארית הם אי תלות בין תצפיות וכן הומוסקדסטיות, מושג שמשמעותו שוויון שונויות. אל דאגה, ניתן לבדוק הומוסקדסטיות בעזרת SPSS ונדגים זאת בהמשך.
את לינאריות הקשר כדי לבדוק תחילה בעזרת גרף, לפני שנבחר להמשיך בניתוח.
למשל, נבחן נתונים שנאספו מ-200 נשים הנוגעים לגיל, השכלה, הכנסה, סטטוס משפחתי ועוד. נרצה לבחון את הקשר בין מספר שנות הלימוד למספר הילדים, שאנחנו "חושדים" שהוא לינארי.
בכדי לבנות גרף מתאים בקלות, נבחר:
Graphs->Legacy Dialogs->Scatter/Dot

linear01

וכן נבחר ב-Simple scatter.

linear02

נכניס בציר ה-Y את המשתנה התלוי, אותו אנחנו מנסים לחזות, ובציר X את המשתנה הבלתי-תלוי ונלחץ OK.

linear03

כעת נביט בגרף:

linear04

לפי הגרף, נראה כאילו אכן קיים קשר לינארי בין שני המשתנים. אם הקשר אינו לינארי, יתכן שנבחר בניתוח אחר, בסוג רגרסיה אחר – או נערוך טרנספורמציה של המשתנים.
אם כן, נמשיך בניתוח.

נבחר:
Analyze->Regression->Linear

linear05

נעביר את המשתנה התלוי, מספר ילדים, אל תיבת dependend ואת המשתנה בלתי-תלוי, רמת השכלה, לתיבת independent.

linear06

בנוסף לכך, נבדוק שתי הנחות חשובות לשימוש במודל רגרסיה לינארית (ישנן הנחות נוספות, בדוגמה זו נדגים שתיים). לבדיקת אי תלות בין תצפיות נלחץ על Statistics

linear07

בחלון שיפתח נסמן את האפשרות Durbin-Watson, ונלחץ על Continue.

linear08

בכדי לבחון את הנחת ה- הומוסקדסטיות, נלחץ על Plots.

linear009

נכניס לציר Y את הערך ZRESID ולצירX את הערך ZPRED ונלחץ על Continue.

linear10

כעת אנחנו מוכנים להריץ את הרגרסיה: נלחץ על OK.

linear11

נביט בתוצאות, ונבחן תוך כדי את ההנחות שבדקנו. יש לזכור: אם ההנחות אינן מתקיימות, התוצאות שנקבל מהמודל הלינארי אינן תקפות.
הטבלה הראשונה שנביט היא היא טבלת Model Summary:

linear12

כאן מופיעים ערכי R וכן R2 . רמת הקורלציה בין המשתנים נמצאת בערך R, ערך של 0.515 מראה על קורלציה גבוהה למדי. R2 מציג את מידת השונות המוסברת – במקרה שלנו, 25% מהשונות במספר הילדים מוסברת על-ידי השכלת האם.
בנוסף לכך, מופיע ערך של מבחן Durbin-Watson המשמש לבחינת אי-תלות בין תצפיות. תוצאת המבחן היא ערך שנע בין 0 ל-4. באופן כללי, אי-תלות נמצאת כאשר הערך קרוב ל-2. ערך קרוב ל-0 מייצג קורלציה חיובית חזקה, וערך קרוב ל-4 קורלציה שלילית. בבדיקה שלנו הערך הוא 1.927, קרוב למדי ל-2 ולכן מתקיימת הנחת אי-תלות בין תצפיות.
בטבלת ה-ANOVA נוכל לראות את טיב ההתאמה של המודל:

linear13

כאשר ערך Sig, הוא ה-p-value, קטן מ-0.05, המודל חוזה באופן מובהק סטטיסטית את ערך המשתנה התלוי. בדוגמה שלנו p בטבלה הנוספת, Coefficients, נמצא את המידע הדרוש לחזות את משתנה Y, הוא מספר הילדים:

linear14

B עבור Constant הוא ערך הקבוע b, ועבור Education הוא ערך הקבוע a. כלומר, מתוך טבלה זו נוכל לשלוף את הנתונים למשוואת הרגרסיה:

Children=-0.378*Education+4.574

באמצעות הגרף שבנינו, נוכל לבחון את הנחת ההומוסקדסטיות.

linear15

בגרף נראה היחס בין השאריות, או ה"טעות", שמייצגת את סטיית הערכים מהמודל כיחס של הערכים המנובאים. הומוסקדסטיות מתקיימת כאשר הקשר בין שני הגורמים הוא עקבי, כלומר אם נשרטט קו שמייצג את הקשר בין הערכים הוא ישר למדי. במקרה זה נראה שמתקיימת הנחת הומוסקדסטיות, ולכן המודל מתאים.
כיצד נציג את התוצאות?
נכתוב:
ביצענו רגרסיה לינארית בכדי לחזות את ערכי מספר הילדים בהתבסס על השכלת הנבדקת. נמצאה משוואת רגרסיה מובהקת (F(1,210)=23.08, p<0.01, R2=0.25). מספר הילדים לכל נבדקת ירד בשיעור של -0.378 לכל שנת השכלה נוספת.
נוסיף טבלה שתדווח על ערך המשתנים:

linear16


האם הערך היה לכם לעזר?

במידה וכן, לחצו:

במידה והייתם מעוניינים שנשפר את הערך, שתפו אותנו ונעדכן אתכם ברגע שנכניס שינויים.
לידיעתכם, נעשה שימוש בכתובת המייל שלכם אך ורק לשם עדכון בנוגע לערך ותו לא!