رگرسیون چیست؟
در مدلهای آماری، تحلیل رگرسیون یا تحلیل ارتباط یک فرایند آماری برای تخمین روابط بین متغیرها است. این روش شامل تکنیکهای زیادی برای مدلسازی و تحلیل متغیرهای خاص و منحصر بفرد، با تمرکز بر رابطه بین متغیر وابسته و یک یا چند متغیر مستقل، است. تحلیل رگرسیون کمک میکند در فهم اینکه چگونه مقدار متغیر وابسته با تغییر هرکدام از متغیرهای مستقل و با ثابت بودن دیگر متغیرهای مستقل تغییر میکند. بیشترین کاربرد تحلیل رگرسیون تخمین امید ریاضی شرطی متغیر وابسته از متغیرهای مستقل معین است که معادل مقدار متوسط متغیر وابسته است وقتی که متغیرهای مستقل ثابت هستند. کمترین کاربرد آن تمرکز روی چندک یا پارامتر مکانی توزیع شرطی متغیر وابسته از متغیر مستقل معین است. در همه موارد هدف تخمین یک تابع از متغیرهای مستقل است که تابع رگرسیون نامیده شدهاست. در تحلیل رگرسیون تعیین پراکندگی متغیر وابسته اطراف تابع رگرسیون مورد توجه است که میتواند توسط یک توزیع احتمال توضیح داده شود. تحلیل رگرسیون به صورت گسترده برای پیشبینی استفاده شدهاست. تحلیل رگرسیون همچنین برای شناخت ارتباط میان متغیر مستقل و وابسته و شکل این روابط استفاده شدهاست. در شرایط خاصی این تحلیل برای استنتاج روابط عالی بین متغیرهای مستقل و وابسته میتواند استفاده شود. هرچند این میتواند موجب روابط اشتباه یا باطل شود بنابراین احتیاط قابل توصیه است.
تکنیکهای زیادی برای انجام تحلیل رگرسیون توسعه داده شدهاست. روشهای آشنا همچون رگرسیون خطی و حداقل مربعات که پارامتری هستند، در واقع در آن تابع رگرسیون تحت یک تعداد محدودی از پارامترهای ناشناخته از دادهها تخمین زده شدهاست. رگرسیون غیر پارامتری به روشهایی اشاره میکند که به توابع رگرسیون اجازه میدهد تا در یک مجموعه مشخص از توابع با احتمال پارامترهای نامحدود قرار گیرند.
تحلیل رگرسیونی یا تحلیل وایازشی فن و تکنیکی آماری برای بررسی و مدلسازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینهای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیشبینی مورد نیاز است.
رگرسیون خطی چیست
رگرسیون خطی یکی از روشهای تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری است برای پیشبینی یک متغیر از روی یک یا چند متغیر دیگر. رگرسیون خطی نوعی تابع پیشبینیکننده خطی است که در آن متغیر وابسته، متغیری که قرار است پیشبینی شود به صورت ترکیبی خطی از متغیرهای مستقل پیشبینی میشود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر بهدست آمده ضرب میشود؛ جواب نهائی مجموع حاصلضربها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین بهدست آمدهاست. سادهترین نوع رگرسیون خطی، رگرسیون خطی ساده است که بر خلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیشبینی یک متغیر وابسته چندین متغیر وابسته پیشبینی میشود.
فرایند تخمین سعی میکند ضرایبِ مدل رگرسیون خطی را به گونهای انتخاب کند که با دادههای موجود همخوانی داشته باشد، یعنی پیشبینیها به مقادیر رؤیت شده در دادهها نزدیک باشند و یکی از مهمترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راههای مختلفی برای حل این مسئله وجود دارد. در روشهای احتمالی، مدلهای رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آمارهای از متغیر وابسته را به عنوان پیشبینی نهایی بهکار میبرند. از متداولترین آمارههای مورد استفاده میانگین است، اگر چه سایر آمارهها نظیر میانه یا چندکها نیز مورد استفاده قرار میگیرند.
یکی دیگر از روشهای متداول تخمین، روش کمترین مربعات است که در آن مجموع مربع تفاضل پیشبینیها و دادههای وابسته کمینه میشود. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام دادههای مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که میتواند به علت وارونهناپذیری ماتریس نهائی و کمبود داده پرهزینه و ناکارا باشد. از این رو عموماً از روشهای جایگزین مانند گرادیان کاهشی تصادفی استفاده میشود.
معمولاً چند پیشفرض برای استفاده از رگرسیون خطی در نظر گرفته میشود. اگر اختلاف بین متغیر وابسته و پیشبینی مدل را «خطا» یا «مانده» بنامیم، آنگاه مفروضات زیر باید در مدلسازی رگرسیون خطی برقرار باشند:
ماندهها از یک توزیع طبیعی پیروی میکنند. این پیشفرض به این معنی است که توزیع مشروط متغیرهای وابسته یک توزیع طبیعی است. این پیشفرض برای کمترین مربعات ضروری است ولی در رگرسیون چندک یا رگرسیون میانه میتوان این پیش فرض را نقض کرد.
ماندهها از هم مستقل هستند. این پیشفرض متغیرهای مانده (و در نتیجه متغیرهای وابسته) را نسبت به هم مستقل میداند. برخی از روشها مانند کمترین مربعات تعمیم یافته قادر به کار با ماندههای همبسته هستند، گرچه بهطور معمول به دادههای بیشتری برای این کار نیاز هست، مگر اینکه از تنظیم مدل استفاده شود. رگرسیون خطی بیز یک روش کلی برای حل این مشکل است.
واریانس ماندهها ثابت است. این پیشفرض مقادیر ماندهها (و در نتیجه متغیرهای وابسته) را دارای واریانس ثابت میداند. در عمل، این فرض معمولاً نامعتبر است و ماندهها ناهمگن هستند. در رگرسیون چندک میتوان این فرض را نقض کرد.
بین متغیرهای مستقل همخطی وجود ندارد. مفهوم این پیشفرض این است که ماتریس متغیرهای مستقل تمام رتبه باشد. اگر این شرط برقرار نباشد بعضی از متغیرهای مستقل ترکیبی خطی از یک یا چند متغیر خطی دیگر خواهند بود. تعداد کم داده میتواند این پیشفرض را نقض کند به خصوص زمانی که تعداد دادهها کمتر از تعداد پارامترهای مدل رگرسیون خطی (تعداد ضرایب رگرسیون خطی) باشد.
رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است. این پیشفرض بدان معنی است که میانگین متغیر وابسته، ترکیبی خطی از پارامترها (ضرایب رگرسیون) و متغیرهای مستقل است. این پیشفرض محدودیت زیادی ایجاد نمیکند زیرا خطی بودن فقط یک محدودیت برای پارامترها است. در رگرسیون خطی تعمیم یافته میتوان چندین متغیر جدید را از ترکیب متغیرهای مستقل ایجاد کرد، یا در رگرسیون چند جملهای ساده، متغیر وابسته را ترکیبی چند جملهای از متغیر مستقل در نظر گرفت. معمولاً برای جلوگیری از بیشبرازش و پیچیدگی مدلهای رگرسیون خطی تعمیم یافته نیاز به تنظیم مدل هست
رگرسیون خطی بهطور گستردهای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار میگیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف، این روش محدودیتهایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمیگنجند و یک متغیر خروجی ندارند (مانند تجزیه و تحلیل خوشهای برای آشکار ساختن گروههای منسجم در دادهها). همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟