الانحدار الخطي البسيط هو حساب المربعات الصغرى من نموذج الانحدار الخطي مع متغير تفسيري واحد.[1][2][3]
وبعبارة أخرى، الانحدار الخطي البسيط هو خط مستقيم يمر بمجموعة من النقاط بطريقة تجعل مجموع مربع النقط المتبقية من النموذج (أي، المسافات الرأسية بين النقطة المتبقية والخط) أقل ما يمكن.
هذا يشير الي حقيقة أن الانحدار هو واحد من أبسط الأساليب المستخدمة في مجال الإحصاء حيث أن ميل الخط يساوي العلاقة بين y و x مصححة بنسبة الانحرافات المعيارية لهذه المتغيرات. نقطة تقاطع الخط مع محور الصادات هي مركز كتلة نقاط البيانات (x, y).
توجد طرق انحدار أخرى بجانب المربعات الصغرى البسيطة (انظر الانحدار الخطي). علي وجه الخصوص، عندما يريد شخص أن يقوم بفعل الانحدار عن طريق العين فانه يميل عادة الي رسم خط حاد قليلا ويكون قريبا من ذلك الذي ينتج من طريقة أقل مربعات كليه.
يحدث هذا لأنه طبيعي أكثر لعقل الإنسان ملاحظة المسافات المتعامدة علي خط الانحدار بدلا من تلك الراسية كما يحدث في طريقة المربعات الصغرى.
افترض ان لديك عدد n من النقاط {(Xi,Yi),i=1,2,.....n} فان الدالة التي تصف Y و X هي:
yi = α + β xi + εi والهدف هو ايجاد معادلة الخط المستقيم y = α + β x التي تعطي أفضل تمثيل للنقاط.
هنا الأفضل يعرف بأنه طريقة المربعات الصغيرة: الخط الذي يقلل مجموع مربعات المتبقيات لنموذج الانحدار الخطي. وبعبارة أخرى، α (نقطة التقاطع مع محور y) و β (الميل) يشاركوا في حل مشكلة التقليل التالية:
باستخدام الحساب هندسة المساحات الداخلية للشكل أو التوسع البسيط للحصول علي معادلة من الدرجة الثانية في α و β ، فإنه من الممكن ايجاد قيم α و β التي تقلل الدالة كالتالي:
sy هو الانحراف المعياري ل y
الخط الأفقي علي فوق الكمية يعبر عن المتوسط. فعلى سبيل المثال:
بالتعويض بالمعادلة السابقة في يؤدي ذلك الي:
و هذا يدل علي الدور الذي يقوم به rxy في خط الانحدار لنقط البيانات. وفي بعض الأحيان يكون من المفيد حساب rxy من البيانات بشكل مستقل باستخدام المعادلة التالية:
وصف الخصائص الإحصائية للمقدرات من الانحدار الخطي البسيط يتطلب استخدام نموذج احصائي. التالي يعتمد علي افتراض صحة النموذج في حالة أن التقديرات مثالية. ومن الممكن أيضا لحساب الخصائص تحت قيود افتراضات أخرى، مثل عدم التجانس، ولكن يتم مناقشة ذلك في أماكن أخرى.
حساب و هي منحازة وهذا يتطلب أن نفسر المقدرات كمتغيرات عشوائية وعلينا أن نفترض أن لكل قيمة ل x القيمة المقابلة لها في y تنتج كنتيجة متوسطة α + βx بالإضافة الي قيمة متغير عشوائي اضافي ε يسمي الخطأ. هذا الخطأ يجب أن يساوي صفر عند حساب المتوسط لكل قيمة ل x وتحت هذا التفسير، تقدير المربعات الصغيرة و سوف يكونوا متغيرات عشوائية وسوف تحسب القيم الحقيقية ل α و β بدون تحيز.
المعادلات المعطاة في الجزء السابق تمكننا من حساب تقديرات النقط ل α و β وهم معاملات خط الانحدار لمجموعة معينة من البيانات. ومع ذلك، هذه المعادلات لا تخبرنا مدي الدقة في التقديرات أي كم المقدرات و تختلف من نموذج لاخر لحجم العينة المحدد. لذا وضع ما يسمي فترات التأكيد لتعطي مجموعة معقولة من القيم التي يمكن تقديرها إذا كررت التجربة عدد هائل من المرات.
الطريقة التقليدية لحساب فترات التأكيد لمعاملات الانحدار الخطي تعتمد علي فرض الثبات الذي له ما يبرره إذا ما:
الخطأ في الانحدار كان متوزع طبيعي (ما يسمي افتراض الانحدار الكلاسيكي)
عدد الملاحظات n كان كبير بشكل كافي في حالة المقدرات كانت موزعة تقريبا بشكل طبيعي
في ظل الافتراض الأول أعلاه، الذي من طبيعته وجود خطأ، تقدير معامل الميل سوف يوزع بشكل طبيعي بمتوسط β وتباين حيث σ2 هو الفرق في الخطأ (انظر البراهين التي تنطوي علي المربعات الصغري). في نفس الوقت، مجموع مربع المتبقيات Q يوزع بالتناسب مع χ2 بعدد درجات حرية n-2 وبشكل مستقل عن وهذا يسمح لنا بعمل احصائية t.
حيث
هو الخطأ المعياري للمقدر
احصائية t لديها توزيع t للطلاب بعدد n-2 درجة حرية وباستخدامها نستطيع تكوين فترة تأكيد ل β:
في مستوي التأكيد (1−γ) حيث هي (1−γ/2)-th من توزيع tn−2 على سبيل المثال، إذا γ = 0.05 ثم مستوي التأكيد 95% وبالمثل، فترة التأكيد لمعامل الاعتراض α يعطي ب
في مستوي التأكيد (1−γ) حيث
فترة التأكيد ل α وβ تعطينا الفكرة الرئيسية حيث معاملات الانحدار من الأرجح أن تكون. على سبيل المثال، في قانون Okun الانحدار ظاهر في بداية المقال النقط المقدرة هي
و فترة التأكيد لهذه المقدرات 95%:
من أجل تمثيل هذه المعلومات بيانيا في شكل فترات تأكيد ول خط الانحدار فعلي الشخص أن يمضي بحذر وحساب التوزيع المشترك للمقدرات. ويمكن أن تظهر أنه في فترة التأكيد (1−γ) رابطة التأكيد تأخذ شكل قطع زائد يعطي بالمعادلة:
الافتراض الثاني البديل ينص علي أنه عندما يكون عد النقاط كبير بشكل كاف، وقانون الأعداد الكبيرة ونظرية حدود المركز قابلين للتطبيق، ومن ثم توزيع المقدرات أمر طبيعي تقريبا. تحت هذا الافتراض جميع الصيغ المشتقة في القسم السابق لا تزال سارية المفعول، مع استثناء وحيد وهو أن t*n−2 لتوزيع t من الطلاب يتم استبداله ب q* من التوزيع الطبيعي القياسي. أحيانا الكسر 1/n−2 يتم استبداله ب 1/n في حالة n تكون كبيرة ومثل هذا التغير لا يغير النتائج بشكل ملحوظ.
هذا المثال يتعلق بمجموعة بيانات من المربعات الصغري العادية. هذه المجموعة تعطي متوسط كتل السيدات كدالة في طولهم في عينة من النساء الأمريكان في عمر 39-30 . وعلى الرغم أن OLS تقول أنه من الأكثر ملائمة عمل انحدار من الدرجة الثانية لهذه البيانات لكن الانحدار الخطي البسيط يمكن تطبيقه هنا بدلا من ذلك.
xi
1.47
1.50
1.52
1.55
1.57
1.60
1.63
1.65
1.68
1.70
1.73
1.75
1.78
1.80
1.83
Height (m)
yi
52.21
53.12
54.48
55.84
57.20
58.57
59.93
61.29
63.11
64.47
66.28
68.10
69.92
72.19
74.46
Mass (kg)
يوجد عدد النقاط (n=15) في هذه البيانات ويتم بدأ الحسابات باليد بحساب المجاميع الخمسة التالية:
هذه الكميات تستخدم لحساب معاملات الانحدار وأخطائهم القياسية
0.975 من توزيع t للطلاب ب 13 درجة حرية يكون t*13=2.1604 وبالتالي 95% فترة تأكيد ل α and β تكون:
و يمكن أيضا حساب ناتج معامل تصحيح الارتباط كالتالي:
هذا المثال يوضح أن الحسابات المعقدة لن تتغلب علي استخدام البيانات المعدة بشكل سيئ. الأطوال أعطت بالبوصة وقد تم تحويلها لأقرب سنتيمتر. ولأن معامل التحويل هو 2.54 فهذا تحويل غير صحيح لأن البوصة الأصلية يمكن استردادها بحوالي (x/0.0254) ومن ثم إعادة تحويلها لمتر. إذا فعلت ذلك تصبح النتئج:
و بالتالي اختلاف صغير في البيانات لديه تأثير حقيقي