החסרונות של רגרסיה לינארית

Posted on
מְחַבֵּר: Peter Berry
תאריך הבריאה: 19 אוגוסט 2021
תאריך עדכון: 12 מאי 2024
Anonim
Limitation of Linear Regression
וִידֵאוֹ: Limitation of Linear Regression

תוֹכֶן

רגרסיה לינארית היא שיטה סטטיסטית לבחינת הקשר בין משתנה תלוי, המכונה y, ומשתנה עצמאי אחד או יותר, המצוין כ- איקס. המשתנה התלוי חייב להיות רציף, בכך שהוא יכול לקבל כל ערך, או לפחות קרוב לרציף. המשתנים העצמאיים יכולים להיות מכל סוג. למרות שרגרסיה לינארית אינה יכולה להראות סיבתיות בפני עצמה, המשתנה התלוי מושפע בדרך כלל מהמשתנים הבלתי תלויים.

רגרסיה לינארית מוגבלת ליחסים לינאריים

מטבעו, רגרסיה לינארית מסתכלת רק על קשרים ליניאריים בין משתנים תלויים ועצמאיים. כלומר, הוא מניח שיש קשר ישר ביניהם. לפעמים זה לא נכון. לדוגמה, היחסים בין הכנסה לגיל מעוקלים, כלומר הכנסה נוטה לעלות בחלקים הראשונים של הבגרות, להשתטח בבגרות מאוחרת יותר ולרדת לאחר פרישת אנשים. אתה יכול לדעת אם זו בעיה על ידי התבוננות בייצוגים גרפיים של מערכות היחסים.

רגרסיה לינארית מסתכלת רק על הממוצע של משתנה תלוי

רגרסיה לינארית בודקת קשר בין הממוצע של המשתנה התלוי לבין המשתנים הבלתי תלויים. לדוגמה, אם אתה מסתכל על הקשר בין משקל הלידה של תינוקות לבין מאפיינים אימהיים כמו גיל, רגרסיה לינארית תראה את המשקל הממוצע של תינוקות שנולדו לאמהות בגילאים שונים. עם זאת, לפעמים אתה צריך להסתכל על הקצוות של המשתנה התלוי, למשל, תינוקות נמצאים בסיכון כאשר המשקל שלהם נמוך, ולכן תרצה להסתכל על הקצוות בדוגמה זו.

כשם שהממוצע אינו תיאור מלא של משתנה יחיד, רגרסיה לינארית אינה תיאור מלא של מערכות היחסים בין משתנים. אתה יכול להתמודד עם בעיה זו באמצעות רגרסיה קוונטית.

רגרסיה לינארית רגישה לממציגים

מחריגים הם נתונים שמפתיעים. מחיקים יכולים להיות חד-משתנים (על בסיס משתנה אחד) או רב-משתנים. אם אתה מסתכל על גיל והכנסה, מחליפים לא משתנים היו דברים כמו אדם בן 118, או כזה שהרוויח 12 מיליון דולר בשנה שעברה. מקורב רב משתנים יהיה ילד בן 18 שהרוויח 200 אלף דולר. במקרה זה, לא הגיל וגם לא ההכנסה הם קיצוניים מאוד, אך מעטים מאוד בני 18 מרוויחים כל כך הרבה כסף.

למוצאים יכולים להיות השפעות עצומות על הרגרסיה. אתה יכול להתמודד עם בעיה זו על ידי בקשת סטטיסטיקות השפעה מתוכנת הסטטיסטיקה שלך.

הנתונים חייבים להיות בלתי תלויים

רגרסיה לינארית מניחה שהנתונים אינם תלויים. זה אומר שלציונים של נושא אחד (כמו אדם) אין שום קשר לאילו של נושא אחר. זה לעתים קרובות, אך לא תמיד, הגיוני. שני מקרים נפוצים שבהם לא הגיוני הם קיבוץ במרחב ובזמן.

דוגמה קלאסית לאשכול בחלל היא ציוני מבחני התלמידים, כאשר יש לכם תלמידים מכיתות, כיתות, בתי ספר ומחוזות שונים. תלמידים באותה כיתה נוטים להיות דומים במובנים רבים, כלומר, הם מגיעים לעתים קרובות מאותן שכונות, יש להם אותם מורים וכו '. לפיכך, הם אינם עצמאיים.

דוגמאות לאשכול בזמן הם מחקרים בהם מודדים את אותם הנושאים מספר פעמים. לדוגמה, במחקר על דיאטה ומשקל, אתה יכול למדוד כל אדם מספר פעמים. נתונים אלה אינם תלויים מכיוון שמה שאדם שוקל בהזדמנות אחת קשור למה שהוא או היא שוקלים בהזדמנויות אחרות. אחת הדרכים להתמודד עם זה היא עם דגמים רב-שכבתיים.