linear-regression

رگرسیون خطی ساده و چندگانه چیست؟-برسی 2 نوع از آن در SPSS

رگرسیون خطی یکی از انواع رگرسیون است که در این مطلب قصد داریم ابتدا شما را با مفهوم رگرسیون آشنا کنیم. سپس رگرسیون خطی را تعریف کرده و در ادامه رگرسیون خطی ساده را در SPSS اجرا خواهیم کرد و در ادامه رگرسیون خطی چند گانه را مورد هدف قرار خواهیم داد.

رگرسیون چیست؟

در سال 1877 فرانسیس گالتون برای اولین بار از رگرسیون استفاده کرد، نتیجه برامده از تحقیقات او نشان داد که کودکانی که در خانوادهای با والدین بلند قامت به دنیا می آیند به قد متوسط گرایش دارند. با رگرسیون می توانیم روابط نادقیق بین متغیر ها را شناسایی کنیم. . در مباحث مربوط به رگرسیون ما به دنبال یافتن رابطه بین متغیر وابسته (پاسخ) و مجموعه‌ای از متغیرهای مستقل (پیشگو) هستیم.

به عنوان مثال در حوادث مربوط به رانندگی در جاده‌ها، عوامل وضعیت هوا، کیفیت جاده، وضعیت راننده، استحکام خودرو و زمان تصادف که متغیرهای پیشگو هستند، بر میزان خسارت که متغیر پاسخ هست تاثیر می‌گذارند. نتیجه رگرسیون، معادله‌ای است که بهترین پیشگویی یک متغیر وابسته را از روی چند متغیر مستقل نشان می‌دهد.

متغیرهای مستقل می‌توانند پیوسته و یا گسسته باشند اما متغیر وابسته در اکثر مواقع پیوسته است. با توجه به نوع متغیرها و اهداف پژوهش، نوع مدل رگرسیونی می‌تواند متفاوت باشد.

ساده‌ترین مدل‌ رگرسیونی، رگرسیون خطی است که شامل دو نوع خطی ساده و خطی چندگانه می‌باشد. مدل‌های رگرسیونی خطی یک چارچوب وسیع و غنی را در بر می‌گیرند که نیاز تحلیل‌های زیادی را برآورده می‌کند و پاسخ می‌دهد.

اما رگرسیون خطی برای همه مسائل نمی‌تواند مناسب باشد، زیرا بعضی از اوقات متغیر پاسخ و متغیرهای رگرسیونی با تابع غیرخطی معلوم به هم مربوط می‌شوند. مانند زمانی که متغیر وابسته ما دو سطح داشته باشد. یعنی پاسخ‌ها تنها شامل دو حالت، مانند وجود یا عدم وجود، خرید یا عدم خرید، بهبود یا عدم بهبود و… (که آنها را با مقادیر 0 و 1 نشان می دهیم) است.

در این مواقع از رگرسیون لجستیک استفاده می‌کنیم. الگوهای رگرسیون لجستیک برای بیان پیش‌بینی متغیرهای دو حالتی الگوهای مناسبی هستند.این روش در ابتدا در کاربردهای پزشکی و برای احتمال وقوع یک بیماری مورد استفاده قرار می‌گرفت. لیکن امروزه در تمام زمینه‌های علمی کاربرد وسیعی یافته است. به عنوان مثال مدیر تبلیغاتی می‌خواهد بداند در خرید یا عدم خرید یک محصول یا برند، چه متغیرهایی مهم هستند؟

غیر از رگرسیون لجستیک انواع دیگری از مدل‌های رگرسیون غیرخطی نیز وجود دارند که شامل: مدل‌های توانی، معکوس، لگاریتمی، سهمی، نمایی، مرکب، رشد، منحنی S و … است.

Linear-regression1

در شکل بالا 3 مدل‌ از رگرسیون خطی و غیرخطی را مشاهده می‌کنید. در شکل‌های 1 و 2 رگرسیون خطی و در شکل 3 مدلی از رگرسیون غیرخطی را می‌بینید.نکته مهم در انجام رگرسیون و پیش‌بینی متغیر پاسخ، انجام پیش‌فرض‌های رگرسیون است.

در واقع قبل از انجام مدل رگرسیون، برای اطمینان از این­که داده­های پژوهش مفروضه­های زیربنایی مدل رگرسیونی را برآورده می­کنند، چهار مفروضه شامل 1) نسبت مشاهدات متغیرهای مستقل، 2) بررسی نقاط پرت، 3) چندهم خطی بین متغیرهای مستقل و تکینی و 4) نرمال بودن، ­خطی بودن، همگنی واریانس‌ها و استقلال باقیمانده‌ها مورد بررسی قرار می‌گیرد.

باید توجه داشت که این فرضیات برای تمام مدل‌های رگرسیونی، بررسی نمی‌شود.

پیش‌فرض‌های انجام رگرسیون:

  1. نسبت مشاهدات متغیرهای مستقل: تعداد مشاهدات لازم برای آزمون، به نوع مدل رگرسیونی که به کار می‌برید، بستگی دارد. برای رگرسیون استاندارد یا مرتبه‌ای به طور آرمانی می‌بایستی تعداد مشاهدات ما 20 برابر تعداد متغیرهای مستقل (پیشگو) باشد، در حالی که برای رگرسیون گام به گام مشاهدات بیشتری مورد نیاز است.کمترین تعداد مشاهدات مورد نیاز یا به عبارت دیگر، کمترین حجم نمونه باید حداقل 5 برابر تعداد متغیرهای مستقل باشد.
  2. نقاط پرت: مشاهدات دور افتاده، به طور جدی بر مدل رگرسیونی اثر می‌گذارند و باید حذف و یا اصلاح شوند تا این اثر کاهش یابد. نقاط پرت تک متغیره را می‌توان با رسم نمودار پراکنش و یا جدول فراوانی یافت. نقاط پرت چند متغیره را می‌توان با استفاده از روش‌های آماری، همانند فاصله ماهالانوبیس و یا روش‌های گرافیکی، همانند نمودارهای پراکنش باقیمانده‌ها پیدا کرد.
  3. چند هم خطی بین متغیرهای مستقل و تکینی: چند هم خطی همان همبستگی شدید (نزدیک به یک) میان متغیرهای مستقل است، در حالی‌که تکینی (singularity) زمانی رخ می‌دهد که همبستگی کاملی (دقیقا یک) بین متغیرهای مستقل وجود داشته باشد. این مسائل در چگونگی تفسیر هر رابطه میان متغیرهای مستقل و متغیر وابسته اثر می‌گذارند و آنها را می‌توان با بررسی ماتریس همبستگی، مربع همبستگی‌های چندگانه و تولرانس نمایان کرد. اکثر برنامه‌های کامپیوتری مقادیر پیش فرضی برای چند هم خطی دارند و متغیرهایی را که چنین مشکلی دارند، وارد مدل نمی‌کنند.
  4. نرمال بودن، خطی بودن، همگنی واریانس‌ها و استقلال باقیمانده‌ها: با رسم نمودارهای پراکنش باقیمانده‌ها می‌توانیم این موارد را بررسی کنیم. فرض می‌شود تفاضل میان مقادیر متغیر وابسته‌ی مشاهده شده و پیش‌بینی شده به صورت نرمال توزیع شده است. به علاوه فرض می‌شود که باقیمانده‌ها رابطه‌ی خطی با امتیازهای متغیر وابسته پیش‌بینی شده دارند و واریانس باقیمانده‌ها برای تمام امتیازهای پیش‌بینی شده، یکسان است. انحرافات جزئی از فرض خطی بودن چندان مهم نیست.

رگرسیون خطی چیست؟

در این قسمت رگرسیون خطی ساده و چندگانه مورد بررسی قرار می‌گیرد. در رگرسیون خطی ساده فقط یک متغیر پیش‌بینی کننده داریم. در حالی که در رگرسیون خطی چندگانه بیش از یک متغیر پیش‌بینی کننده داریم.

به عنوان مثال وقتی می‌خواهیم بررسی کنیم که آیا میزان ضریب هوشی دانش‌آموزان بر معدل آنها تاثیرگذار هست یا نه؟ از رگرسیون خطی ساده استفاده می‌کنیم. اما زمانی که می‌خواهیم بررسی کنیم، آیا میزان ضریب هوشی و ساعت مطالعه در هفته دا‌نش‌آموزان بر معدل آنها تاثیرگذار هست یا نه؟ از رگرسیون خطی چندگانه استفاده می‌کنیم. در حالت اول برای پیش‌بینی متغیر پاسخ تنها یه متغیر مستقل داریم اما در حالت دوم برای پیش‌بینی متغیر پاسخ دو متغیر ضریب هوشی و ساعت مطالعه در هفته را داریم.

مثال کاربردی رگرسیون خطی ساده در SPSS

قبل از انجام رگرسیون خطی ساده، قدم اول بررسی رابطه بین دو متغیر است. برای بررسی این رابطه نمودار پراکندگی بین دو متغیر را رسم می‌کنیم. یکی از ساده‌ترین روش‌ها برای بررسی هبستگی و رابطه بین متغیرها با یکدیگر رسم نمودار پراکندگی است.

ا بررسی این نمودار، خطی یا غیر خطی و مثبت یا منفی بودن رابطه بین دو متغیر را متوجه می‌شویم. همچنین با رسم نمودار پراکندگی می‌توانیم نقاط پرت را نیز شناسایی کنیم. در رسم نمودار پراکندگی، متغیر مستقل یا پیشگو در محور افقی و متغیر وابسته یا پاسخ در محور عمودی قرار می‌گیرد.

Nonlinear-Linear-regression1

همانطور که در شکل 1 و 2 می‌بینید، نقاط حول یک خط راست جمع شده‌اند پس در این دو شکل وجودرابطه خطی بین دو متغیر مشهود است. در شکل 1 رابطه خطی مثبت مشاهده می‌شود و در شکل 2 به دلیل اینکه شیب خط منفی است پس رابطه منفی دیده می‌شود. اما در شکل 3 رابطه خطی بین دو متغیر مشاهده نمی‌شود.

اگر رابطه خطی بین دو متغیر وجود نداشته باشد، مقدار ضریب همبستگی نزدیک صفر خواهد بود. اما ضریب همبستگی صفر به این معنی نیست که هیچ نوع رابطه بین دو متغیر وجود ندارد. بلکه ممکن است یک رابطه غیرخطی بین دو متغیر وجود داشته باشد. در رگرسیون خطی ساده متغیر وابسته یا پاسخ را با Y و متغیر مستقل یا پیشگو را با X نشان می‌دهیم و معادله خط رگرسیون ساده به صورت  Y=aX+b است.

حال با ارائه یک مثال، تمامی مراحل رگرسیون خطی ساده را در نرم‌افزار SPSS  انجام می‌دهیم. فرض کنید می‌خواهیم بررسی کنیم آیا برون‌گرایی مدیر بر بهره‌وری عملیات نیروهای زیرمجموعه تاثیرگذار هست؟

برای انجام رگرسیون خطی ساده، با فرض تایید پیش‌فرض‌ها به صورت زیر عمل می‌کنیم.

در مرحله اول بعد از ورود داده‌ها در نرم‌افزار SPSS، از منو Analyze گزینه Regression و سپس Linear… را انتخاب می‌کنیم.

Linear-regression-in-spss.PNG

در مرحله بعد، در قسمت Dependent، متغیر وابسته (پاسخ) و در قسمت Independent(s) متغیر مستقل را وارد می‌کنیم و در قسمت Method گزینه Enter را انتخاب می‌کنیم. سپس روی گزینه Statistics… کلیک می‌کنیم.

Linear-regression-in-spss-choose.PNG

سپس در کادر باز شده، گزینه‌های Estimates و Model fit را انتخاب می‌کنیم و در قسمت    Residuals گزینه Casewise diagnotistics را انتخاب می‌کنیم. با استفاده از این گزینه، داده‌های پرتی را که بیش از 3 انحراف معیار از میانگین فاصله داشته باشند، مشخص می‌کنیم. بعد از این مرحله روی دکمه Continue و پس از آن روی دکمه Plots… کلیک می‌کنیم تا کادر مربوط به آن باز شود.

Linear-regression-in-spss-plots.PNG

در کادر باز شده، در قسمتY، ZRESID (باقیمانده‌های استاندارد شده) را انتقال دهید و در قسمت X، ZPRED (مقادیر پیش‌بینی استاندارد شده) را منتقل می‌کنیم. با این کار نمودار باقیمانده‌های استاندارد شده در برابر مقادیر پیش‌بینی استاندارد شده رسم می‌شود و در کادر پایین گزینه Normal probability plot را انتخاب و سپس روی گزینه Continue کلیک می‌کنیم.

Linear-regression-in-spss-zpred.PNG

اکنون روی دکمه Save… کلیک می‌کنیم تا کادر مربوطه باز شود. از قسمت Distance گزینه Mahalanobis را انتخاب می‌کنیم تا متغیر جدیدی به فایل داده‌ها اضافه شود که همان فاصله ماهالانوبیس است و نشان می‌دهد که نقطه پرت چندمتغیره در میان داده‌ها وجود دارد یا خیر؟ سپس روی گزینه Continue  و OK کلیک می‌کنیم.

Linear-regression-in-spss-Mahalanobis.PNG

حال خروجی نرم‌افزار SPSS را با هم بررسی می‌کنیم.

Linear-regression-in-spss-output.PNG Linear-regression-in-spss-output-summary

Linear-regression-in-spss-output-anova Linear-regression-in-spss-output-coefficients Linear-regression-in-spss-output-statistics

با توجه به جداول فوق چون مقدار معناداری کوچکتر از 05/0 (004/0) و مقدار آماره F برابر 134/9 است، پس مدل رگرسیونی برازش داده شده معنادار است. ضریب تعیین بین متغیر مستقل “برونگرایی” و متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” 115/0 به‌دست آمده است که یعنی متغیر مستقل حدود 12 درصد از واریانس متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” را بیان می‌کند.

همچنین معناداری اثر متغیر مستقل یا ضرایب رگرسیونی آزمون شده است. برای متغیر “برونگرایی”، با توجه به مقدار معناداری مرتبط با آن‌‌ که مقداری کوچکتر از 05/0 است، می‌توان گفت این متغیر  پیش‌بینی‌کننده خوبی‌ برای متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” است. بنابراین «برونگرایی» بر بهره­وری عملیات نیروهای زیرمجموعه تأثیر دارد.

Linear-regression-histogram Linear-regression-P-P-Plot

از روی نمودار P-P Plot، می‌توان مشاهده نمود که باقیمانده‌ها نسبتا به‌طور نرمال توزیع شده‌اند. چون طبق این نمودار، اگر تمام نقاط روی نیمساز ربع اول باشد، آنگاه داده‌ها کاملا از توزیع نرمال تبعیت می‌کنند.

Linear-regression-scatterplot

از روی نمودار فوق که مربوط به پراکنش باقیمانده‌های استاندارد شده و مقادیر پیش‌بینی شده استانداردشده است، می‌توان مشاهده کرد که هیچ رابطه مشخصی میان باقیمانده‌ها و مقادیر پیش‌بینی شده وجود ندارد. که با فرض خطی بودن سازگار است. در مجموع با توجه به تایید پیش‌فرض‌ها و بررسی مدل رگرسیون خطی ساده می‌توان گفت متغیر برون‌گرایی مدیر سازمان بر بهره‌وری نیروهای زیرمجموعه تاثیر می‌گذارد.

رگرسیون خطی چندگانه و مثال کاربردی در SPSS

در رگرسیون خطی چندگانه به‌دنبال پیش‌بینی تغییرات بیش از یک متغیر مستقل بر روی یک متغیر وابسته هستیم. به طور کلی برای برآورد پارامترهای مدل رگرسیون خطی چندگانه باید از روش ماتریسی استفاده نمود که این روش‌ها را معمولا با نرم‌افزار انجام داده و پارامترها را برآورد می‌کنند. معادله خط رگرسیون چندگانه به صورت مقابل است: Multiple-linear-regression-equation

 

به فرآیندی که با آن بتوان مناسب‌ترین مدل رگرسیون را هم از لحاظ دقت کافی و هم از لحاظ حداقل تعداد متغیرهای مستقل یافت، روش انجام رگرسیون می‌گوییم. برای یافتن مناسب‌ترین مدل رگرسیون خطی چندگانه روش‌های متعددی وجود دارد که چهار نوع از مهم‌ترین آنها عبارتند از:

  • روش ورودی (Enter)
  • روش پیش‌رو (Forward)
  • روش پس‌رو (Backward)
  • روش گام‌ به گام (Stepwise)

در روش ورودی تنها مدل رگرسیون یک گام دارد و در آن گام ورود همان متغیرهای پیشنهاد شده توسط محقق در معادله رگرسیون مدنظر است. در این روش هدف یافتن مدل نهایی نیست، بلکه محقق می‌خواهد وجود یک رابطه بین متغیرها را که طبق یک فرضیه مطرح شده است، تایید یا رد نماید. بنابراین این روش برای مطالعات تاییدی به‌کار می‌رود.

روش پیش‌رو به این ترتیب طراحی شده است که ابتدا یک متغیر مستقل وارد معادله می‌شود. این متغیر باید بیشترین همبستگی را با متغیر وابسته داشته باشد. آنگاه در مراحل بعد نیز هر بار تنها یک متغیر مستقل که همبستگی زیادی با متغیر وابسته دارد، به معادله اضافه می‌شود. این کار تا آنجا ادامه می‌یابد که متغیر مستقلی که روی متغیر وابسته تاثیر دارد، باقی نماند.

روش پس‌رو، عکس روش پیش‌رو است. یعنی در این روش ابتدا همه متغیرهای مستقل پیشنهاد شده توسط محقق در معادله در نظر گرفته شده و از یک معادله رگرسیون خطی چندگانه بهره‌برداری می‌شود. آنگاه برای دست یافتن به مدل مناسب، متغیرهایی که ضرورت ندارند، یکی یکی از مدل کنار گذاشته می‌شوند. این کار تا زمانی ادامه می‌یابد که متغیر مستقل غیرمهمی برای خروج از مدل باقی نماند.

رگرسیون گام به گام ترکیب دو روش پیش‌رو و پس‌رو است.

 

به این ترتیب که در این روش ابتدا یک متغیر مستقل (متغیری که همبستگی زیادی با متغیر وابسته دارد) وارد مدل شده و ضرورت آن برای باقی ماندن در مدل بررسی می‌شود. سپس متغیر دوم وارد شده و ضرورت حذف آن نیز بررسی می‌گردد. این کار تا آنجا ادامه می‌یابد که هیچ متغیر مستقلی شرط ورود به مدل و خروج از آن را نداشته باشد.

حال با بیان یک مثال مراحل رگرسیون خطی چندگانه را در SPSS با هم مرور می‌کنیم. می‌خواهیم بررسی کنیم که آیا ویژگی‌های شخصیتی مدیر که شامل ثبات عاطفی، برون گرایی، تجربه اندوزی، روحیه توافق و وجدان کاری است بر بهره‌وری عملیات نیروهای زیرمجموعه تاثیر می‌گذارد یا خیر؟

مراحل انجام رگرسیون خطی چندگانه در SPSS مشابه رگرسیون خطی ساده است با این تفاوت که در قسمت متغیرهای مستقل به جای یک متغیر مستقل، تعداد بیشتری متغیر مستقل وارد می‌شود و اینکه باید برای تعیین روش انجام رگرسیون یکی از روش‌های گفته شده در بالا را انتخاب کنیم.

در مرحله اول بعد از ورود داده‌ها در نرم‌افزار SPSS، از منو Analyze گزینه Regression و سپس Linear… را انتخاب می‌کنیم. پس از آن متغیر وابسته بهره‌وری عملیات نیروهای زیرمجموعه را در قسمت Dependent و متغیرهای مستقل ثبات عاطفی، برون گرایی، تجربه اندوزی، روحیه توافق و وجدان کاری را در قسمت Independents وارد می‌کنیم و در قسمت Method یکی از روش‌های مربوطه شامل روش ورودی (Enter)، روش پیش‌رو (Forward)، روش پس‌رو (Backward) و یا روش گام‌ به گام (Stepwise) را انتخاب می‌کنیم. سپس مشابه مراحل گفته شده در رگرسیون خطی ساده با انتخاب گزینه‌ها مدل رگرسیونی را اجرا می‌کنیم.

Multiple-Linear-regression-in-spss

حال پس از انجام مراحل رگرسیون در نرم افزار SPSS می‌خواهیم خروجی نرم افزار با روش ورودی را بررسی کنیم.

multiple-Linear-regression-in-spss-output

multiple-Linear-regression-in-spss-output-summary

multiple-Linear-regression-in-spss-output-anova multiple-Linear-regression-in-spss-output-coefficients multiple-Linear-regression-in-spss-output-collinearity multiple-Linear-regression-in-spss-output-statistics

با توجه به جداول فوق چون مقدار معناداری کوچکتر از 05/0 (011/0) و مقدار آماره F برابر 264/3 است، پس مدل رگرسیونی برازش داده شده معنادار است. ضریب تعیین بین متغیرهای مستقل و متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” 198/0 به‌دست آمده است که یعنی متغیرهای مستقل حدود 20 درصد از واریانس متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” را بیان می‌کنند.

همچنین معناداری اثر متغیرهای مستقل یا ضرایب رگرسیونی آزمون شده است. برای متغیرهای “ثبات عاطفی”، “برون‌گرایی”، “تجربه اندوزی”، “روحیه توافق” و “وجدان کاری”، با توجه به مقدار معناداری مرتبط با آن‌ها‌ که مقداری کوچکتر از 05/0 است، می‌توان گفت این متغیرها مهم‌ترین پیش‌بینی کننده‌ها برای متغیر وابسته “بهره‌وری عملیات نیروهای زیرمجموعه” هستند. پس در مجموع، ویژگی­های شخصیتی مدیران بر بهره­وری عملیات نیروهای زیرمجموعه تأثیر دارد.

در این مطلب سعی کردیم به صورت جامع اجرای یک پروژه رگرسیون خطی را به شما نشان دهیم، اما این نوع پروژه ها نیز در برخی موارد دچار پیچیدگی های خواهد شد.شما می توانید با استفاده از افراد خبره و با تجربه مشکلات خود را در میان بگذارید. برای بهره مندی از نظر متخصصان و کارشناسان می توانید به قسمت مشاوره آماری رایگان مراجعه کنید و مشکلات خود را با آن ها در میان بگذارید، پرسش های شما در اسرع وقت پاسخ داده خواهد شد.

قطعا رگرسیون به این مطلب ختم نخواهد شد. انواع دیگری از رگرسیون وجود دارد که در مطالب بعدی به آن ها اشاره خواهیم کرد و چنانچه به مباحث آماری علاقه دارید می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید و به واسطه این صفحه می توانید از جدید ترین مطالب منتشر شده در سایت آمار پیشرو با خبر شوید.

یکی از کاربرد های رگرسیون در پایان نامه است که از حساسیت بسزایی برخوردار است. شما می توانید برای اجرای رگرسیون از خدمات شرکت های آماری استفاده کنید یکی از خدمات شرکت آمار پیشرو تحلیل آماری پایان نامه است که شما می توانید با تکمیل فرمی که در قسمت ثبت سفارش است از خذمات این مجموعه مجرب استفاده کنید.

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *