• خانه
  • خدمات فردی
    • تحلیل آماری؛ تعریف، مراحل، سفارش
    • مشاوره آماری
    • آموزش آمار
  • خدمات سازمانی
    • خدمات هوش مصنوعی
    • داده کاوی
    • بازاریابی داده محور
  • بلاگ
  • درباره آمار پیشرو
  • تماس با آمار پیشرو
  • فروشگاه
  • 0
آمار پیشرو
خاطراتت را زنده نگهدار
بررسی نرمال بودن داده ها
آموزش آمار

آزمون نرمال بودن داده ها(Normality Test) در SPSS

توسط لادن عباس نیا فوریه 24, 2023
نوشته شده توسط لادن عباس نیا

آزمون نرمال بودن داده ها پیش نیاز بسیاری از آزمون های آماری است زیرا نرمال بودن داده ها یک فرض زیربنایی در آزمایش های پارامتری است. نرمال بودن داده ها جز یکی از اصلی ترین آزمون هایی است که باید برای استفاده از هر داده از آن استفاده کنیم.

دو روش اصلی ارزیابی نرمال بودن وجود دارد: از نظر گرافیکی و عددی و یا از نظر آزمون های آماری. زمانی که می گوییم از نظر گرافیکی نرمال بودن داده ها را بررسی کنید، به این معنی است که می خواهیم با استفاده از نمودارها و شاخص‌های آماری مانند نمودار q-q plot و یا چولگی و کشیدگی و … نرمال بودن داده‌ها را بررسی کنید. زمانی که می خواهیم با استفاده از آزمون های آماری نرمال بودن داده ها را بررسی کنیم، به این معنی است که با استفاده از آزمون هایی مانند کلوموگروف-اسمیرنوف یا شاپیرو ویلک و … نرمال بودن داده‌ها را بررسی کنیم. پیشنهاد اکثر متخصصین آمار، استفاده از هر دو مسیر برای بررسی نرمال بودن داده‌هاست.

این بخش به شما کمک خواهد کرد تا مشخص کنید که آیا داده های شما نرمال هستند یا خیر. رویکردها را می توان به دو موضوع اصلی تقسیم کرد: تکیه بر آزمون های فرضیه ای  یا نمودار های آماری.

روش های آزمون نرمال بودن داده ها
در این جدول شما روش های آزمون نرمال بودن داده ها را در یک نما می بینید.

آزمون های فرضیه ای این مزیت را دارند که قضاوت عینی در مورد نرمال بودن انجام دهند، اما گاهی اوقات دقت لازم برای حجم نمونه های کوچک ندارد و یا بلعکس حساسیت زیادی برای حجم نمونه های بزرگ دارد. به این ترتیب، برخی از آماردانان ترجیح می دهند برای برسی نرمال بودن داده ها از پلات ها/گراف ها استفاده کنند.

تفسیر گرافیکی این مزیت را دارد که برای آزمون های آماری دارای حساسیت بالا یا کم تر از حد معمول یک قضاوت خوب ارائه دهد،  اما روش های گرافیکی فاقد عینیت هستند. اگر تجربه زیادی در تفسیر نرمال بودن به صورت گرافیکی نداريد،  بهتر است به روش های عددی تکيه کنيد.

در قسمت های قبلی به بررسی آزمون کولموگروف اسمیرنوف پرداختیم. در این قسمت ما در ابتدا به آموزش بررسی نرمال بودن داده ها با استفاده از آزمون شاپیرو ولیک و نمودار q-q پلات در نرم افزار  spssمی پردازیم و سپس با ارائه مثالی موضوع را روشن تر می کنیم.

آزمون نرمال بودن داده ها در SPSS

در نرم افزار spss با استفاده از دستور explor شما می توانید انتخاب کنید که نرمال بودن را برای یک  گروه آزمون کنید یا آن ها را به چند گروه تقسیم کنید و سپس آزمون نرمال بودن را انجام دهید. به طور مثال اگر شما گروهی داشته باشید و بخواهید نرمال بودن قد آن ها را آزمون کنید با استفاده از دستور explore  این کار را می توانید انجام دهید.

شما می توانید داده ها را به دو گروه مرد و زن تقسیم کنید و نرمال بودن را برای هر کدام از آن ها ازمون کنید. لازم به ذکر است که اگر تعداد گروه های ارزیابی شما دو یا بیشتر باشند باید از دستور split نیز استفاده نمایید و دستور explore به تنهایی کافی نیست.

همانطور که در عکس زیر نمایش داده شده است کلیک نمایید:

دستور EXPLOR برای بررسی نرمال بودن دو گروه داده
مسیر نرمالity test در SPSS
در این تصویر نمایی از این دستور در SPSS می بینید

جعبه explore   به صورت زیر برای شما نمایش داده می شود:

depended لیست SPSS

متغیری که نرمال بودن آن را می خواهید آزمون کنید را به بخش  Dependent List  منتقل نمایید.

آنالیز نرمال بودن داده ها در SPSS

[اختیاری] اگر می خواهید بدانید  متغیر شما  برای هر سطح از متغیر مستقل به طور نرمال توزیع شده است، متغیر مستقل را به قسمت factor list  منتقل کنید.

factorlist-in-spss

روی گزینه statistics در قسمت بالا کلیک نمایید و سپس

جدول نرمال بودن داده ها در SPSS

روی continue کلیک نمایید .

explore:plots-in-spss

روی گزینه Plot کلیک نمایید

روی continue  و سپس ok کلیک نمایید.

دز خروجی این آزمون جدول های مختلفی به نمایش در می آید که همه ی آنها برای بررسی نرمال بودن استفاده نمی شود. برای بررسی نرمال بودن، ما به جدول آزمون شاپیرو ویلک و نمودار q-q plot نیازمندیم.

جدول-آزمون-شاپیرو-ویلک

جدول بالا نتایج حاصل از دو آزمایش شناخته شده نرمال بودن یعنی آزمون کولموگوروف-اسمیرنوف و آزمون شاپیرو-ویلک را ارائه می دهد. آزمون شاپیرو-ویلک برای اندازه نمونه های کوچک (کمتر از ۵۰ نمونه) مناسب تر است، اما می تواند برای حجم نمونه تا 2000 نیز مورد استفاده قرار بگیرد. به همین دلیل، ما از آزمون شاپیرو-ویلک به عنوان آزمون عددی برای ارزیابی نرمال بودن داده ها استفاده خواهیم کرد.

از جدول بالا می بینیم که برای گروه دوره های “مبتدی”، “متوسط” و “پیشرفته” متغیر وابسته، “زمان”، به طور نرمال توزیع شده است. راه تشخیص بدین گونه است که اگر مقدار sig آزمون شاپیرو-ویلک بیشتر از ۰٫۰۵ باشد، داده ها نرمال است. اگر زیر ۰٫۰۵ باشد، داده ها  از یک توزیع نرمال پیروی نمی کنند.

نمودار q-q plot در بررسی نرمال بودن داده ها

به منظور تعیین نرمال بودن داده ها به صورت گرافیکی، می توانیم از خروجی نمودار Q-Q  استفاده کنیم. اگر داده ها به طور نرمال توزیع شوند، نقاط داده نزدیک به خط مورب خواهند بود. اگر داده ها روی خط مورب قرار نگرفته باشند، داده ها به طور نرمال توزیع نشده اند.

نمودار q-q plot

 زمانی که دو یا چند متغیر مستقل وجود دارد برای بررسی نرمال بودن داده ها چه کنیم

دستورexplore  به تنهایی نمی تواند متغیر وابسته را به گروه های دو یا چند متغیر مستقل جدا کند. با این حال، ما می توانیم این کار را با استفاده از دستور split file  انجام دهید.

همانطور که در زیر نشان داده شده است. روی split file> کلیک کنید.

split-file-in-spss

سپس تصویر زیر برای شما به نمایش در می آید.

split file

گزینه ok  را انتخاب کنید.

توجه: پرونده شما اکنون اسپلیت شده است و خروجی از هر آزمونی با توجه به گروه هایی که انتخاب کرده اید انجام خواهد شد.

حال مسیر زیر را مطابق شکل انتخاب نمایید.

Analyze > Descriptive Statistics > Explore

مرحله نهایی Splitfile

پنجره explore  مطابق شکل زیر به نمایش در می آید:

صفحه explore در SPSS

گزینه های فوق را  تغییرندهید و روی گزینه  continue کلیک کنید.

 متغیری را که باید برای نرمال بودن آزمون شود به Dependent List  منتقل نمایید. در این مثال، متغیر Int_Politics را به Dependent List منتقل می کنیم. سپس برای شما صفحه نمایش زیر ارائه خواهد شد:

صفحه نمایش لیست متغیر های وابسته برای نرمال بودن داده ها

اکنون خواهید دید که خروجی بر اساس ترکیب گروه های دو متغیر مستقل به بخش های جداگانه تقسیم شده است. در این  مثال آزمون های نرمال بودن را نشان می دهیم به طوری که متغیر وابسته، “Int_Politics”، در گروه اول “جنسیت” (مرد) و اولین گروه “Edu_Level” (School) دسته بندی می شود. تمام ترکیب های ممکن دیگر نیز در خروجی کامل ارائه شده است.

جدول آزمون نرمال بودن

جدول آزمون نرمال بودن به صورت زیر به نمایش در می آید:

بررسی نرمال بودن داده ها

آزمون شاپیرو-ویلک در حال حاضر در حال تجزیه و تحلیل نرمال بودن “Int_Politics” بر روی داده های “مرد” در متغیر مستقل، “جنسیت”، و “مدرسه” در متغیر مستقل “Edu_Level” طبقه بندی شده است. همانطور که ارزش sig در زیر ستون شاپیرو-ویلک بیشتر از 0.05 است، می توانیم به این نتیجه برسیم که “Int_Politics” برای این زیرمجموعه خاص از افراد به طور نرمال توزیع شده است.

با استفاده از این داده ها به رسم نمودار Q-Qplot می پردازیم. از این گراف می توان نتیجه گرفت که به نظر می رسد داده ها به طور نرمال توزیع می شوند چرا که نزدیک خط مورب را دنبال می کند و به نظر نمی رسد که الگوی غیر خطی داشته باشد.

نمودار Q-Qplot

نتیجه :
با توجه به اهمیت نرمال بودن داده ها بررسی نرمال بودن داده ها بسیار مهم است. در این مطلب سعی کردیم با مثالی ملموس این موضوع را برای شما شرح دهیم. اگر شما هم علاقه مند به مباحث آماری هستید می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید. می توانید سوالات خود را در چت از ما بپرسید و همچنین در ادامه نظر خود را نسبت به این مطلب اعلام کنید.

فوریه 24, 2023 2 نظرات
0 فیس‌بوکتوییترپینترستایمیل
تحلیل کواریانس چند متغیره
آمار پیشرفته

تحلیل کواریانس چند متغیره(MANCOVA) در SPSS

توسط لادن عباس نیا اکتبر 8, 2022
نوشته شده توسط لادن عباس نیا

تحلیل کواریانس چند متغیره یک طرفه (MANCOVA) را می‌توان به‌عنوان یک تعمیم از تحلیل واریانس چند متغیره یک طرفه (MANOVA) برای واردکردن یک متغیر کمکی و یا تعمیمی از تحلیل کواریانس یک طرفه جهت واردکردن چندین متغیر وابسته در نظر گرفت.

 این متغیر کمکی به طور خطی با متغیرهای وابسته مرتبط است و گنجاندن آن در تجزیه و تحلیل می‌تواند توانایی تشخیص تفاوت بین گروه‌های یک متغیر مستقل را افزایش دهد. تحلیل کوواریانس چند متغیره  یک طرفه برای تعیین اینکه آیا تفاوت‌های آماری معنی‌داری بین میانگین‌های اصلاح شده سه یا چند گروه مستقل (غیر مرتبط) وجود دارد (که برای یک متغیر کمکی پیوسته کنترل شده اند) استفاده می‌شود

کاربرد تحلیل کواریانس چند متغیره(MANCOVA)

به عنوان مثال، شما می‌توانید از آنالیز چندمتغیره کوواریانس یک طرفه برای تعیین اینکه آیا عملکردهای مختلف امتحانات  بر اساس سطح اضطراب آزمون دانش‌آموزان متفاوت است یا خیر، استفاده کنید. در حالی که زمان تجدید نظر را نیز کنترل می‌کنید.

(به عنوان مثال، متغیرهای وابسته “عملکرد آزمون علوم انسانی”، “عملکرد آزمون علوم” و “ریاضی عملکرد امتحان”، که از 0-100، اندازه گیری شده‌اند و متغیر مستقل “سطح اضطراب آزمون”است، که دارای سه گروه – “دانش آموزان کم استرس” ، “دانش آموزان با استرس متوسط” و “دانش آموزان با استرس زیاد ” است و متغیر کمکی “زمان تجدید نظر” که بر معیار ساعت اندازه‌گیری شده است می‌باشد. شما می‌خواهید زمان تجدید نظر را کنترل کنید چرا که شما معتقدید که اثر سطح اضطراب آزمون بر عملکرد امتحانات، تا حدی، در مقدار زمانی که دانش‌آموزان صرف تجدید نظر می‌کنند بستگی دارد.
چنانچه این مباحث برای شما مشکل است می توانید همین الان در آمار پیشرو ثبت سفارش کنید و کارشناسان متخصص ما پروژه شما را به صورت کامل اجرا کنند.

چرا پیش فرض های آنالیز چندمتغیره کوواریانس اهمیت دارد؟

هنگامی که شما تجزیه و تحلیل داده‌های خود را با استفاده از MANCOVA یک طرفه انتخاب می‌کنید، بخش مهمی از فرایند انجام آزمون بررسی پیش‌فرض‌های مرتبط با آزمون مانکوا است. برای اینکه نتایج آزمون شما معتبر باشد، حتما باید پیش‌فرض‌های انجام آن برقرار باشد. تعجب نکنید اگر وقتی داده‌های خودتان را با استفاده از SPSS تحلیل می‌کنید، یک یا چند تا از این فرضیات نقض می‌شود. این در هنگام کار با داده‌های دنیای واقعی غیرمعمول نیست. با این حال، حتی زمانی که فرضیات برای داده‌های شما برقرار نیست، اغلب راه حلی برای غلبه بر این امر وجود دارد.

در عمل، چک کردن این 11 فرضیه به احتمال زیاد، زمان‌برترین بخش از تجزیه و تحلیل شما را تشکیل می‌دهد، همچنین فکرکردن در مورد داده‌های خود و اینکه چه باید بکنید اگر داده‌های شما فرضیات مربوط به آزمون را نقض کند، زمان زیادی می‌برد. در بخش زیر این ۱۱ فرض به طور خلاصه تنظیم شده است:

 تحلیل کواریانس چند متغیره  یک طرفه(MANCOVA) به شما خواهد گفت که آیا گروه‌های متغیر مستقل از نظر آماری به طور معنی‌داری بر اساس متغیرهای وابسته ترکیبی، پس از اصلاح متغیرکمکی متفاوت است اما نتیجه را بیشتر توضیح نخواهد داد.

تعریف تحلیل کواریانس چند متغیره

به عبارت دیگر، تحلیل کواریانس چند متغیره  یک طرفه (MANCOVA) در مورد تفاوت‌های بین گروه‌های خاص به شما نخواهد گفت. با استفاده از مثال بالا،  تحلیل کواریانس چند متغیره  یک طرفه(MANCOVA) از نظر آماری نشان می‌دهد که تفاوت در سطوح اضطراب آزمون بر روی نمرات ترکیبی از سه آزمون (به عنوان مثال، علوم انسانی، علوم و ریاضیات) وجود دارد یا خیر. با این حال، نشان نخواهد داد که آیا دانش آموزان کم استرس در نمرات امتحان  نمره بالاتری نسبت به دانش آموزان با استرس بالا کسب می‌کنند، یا حتی به طور خاص تر، آیا دانش آموزان کم استرس در یک امتحان خاص (مانند امتحان علوم) در مقایسه با دانش آموزان بسیار پرتنش نمره بالاتری کسب کرده اند یا نه. می‌توان از آزمون های تعقیبی برای تعیین محل این تفاوت  بین گروه‌ها استفاده کرد.

پیش فرض‌های تحلیل کواریانس چند متغیره در SPSS

هنگامی که شما انتخاب می‌کنید تجزیه و تحلیل داده‌های خود را با استفاده از تحلیل کواریانس چند متغیره  یک طرفه(MANCOVA)   انجام دهید،  بخش مهمی از فرایند، این است که مطمئن شوید که داده‌هایی را که  شما می‌خواهید به تجزیه و تحلیل آن‌ها بپردازید می‌توانید از تحلیل   (MANCOVA)استفاده کنید.

11 فرضیه  است که برای MANCOVA یک طرفه مورد نیاز است که به شما یک نتیجه معتبر می‌دهد. تعجب نکنید اگر وقتی داده های خودتان را با استفاده از SPSS تحلیل می‌کنید، یک یا چند تا از این فرضیات نقض شود این در هنگام کار با داده‌های دنیای واقعی غیرمعمول نیست. با این حال، حتی زمانی که داده‌های شما فرضیات خاصی را شکست می‌دهد، اغلب راه حلی برای غلبه بر این امر وجود دارد.

در عمل، چک کردن  این 11 فرضیه به احتمال زیاد  زمان بر ترین بخش از تجزیه و تحلیل است که در ادامه به طور خلاصه شرح می‌دهیم.

فرض1: دو یا چند متغیر وابسته شما باید متغیرهای فاصله‌ای یا نسبتی باشند (متغیر های پیوسته باشند). نمونه‌های متغیرهای پیوسته شامل زمان تجدید نظر (بر اساس ساعت اندازه گیری می‌شود)، هوش (با استفاده از نمره ضریب هوشی اندازه‌گیری می‌شود)، عملکرد امتحان (بازه ۰ تا ۱۰۰ اندازه‌گیری می‌شود)، وزن (با کیلوگرم اندازه گیری می‌شود) و موارد دیگر.

فرض 2: متغیر مستقل شما باید از دو یا چند گروه دسته بندی شده، مستقل تشکیل شود (در واقع  شما یک متغیر اسمی یا یک متغیر ترتیبی داشته‌اید). نمونه‌هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، ۲ گروه: مرد و زن)، قومیت (به عنوان مثال، ۳ گروه قفقازی، آمریکایی آفریقایی تبار واسپانیایی تبار) و حرفه (به عنوان مثال، ۴ گروه جراح، دکتر، پرستار و دندانپزشک) است. نمونه‌هایی از متغیرهای ترتیبی شامل غلظت کلسترول (به عنوان مثال، ۲ گروه: ۵ میلی مولبر لیتریا زیر و بالاتر از ۵ میلی مول بر لیتر) سطح فعالیت بدنی (به عنوان مثال، ۳ گروه: کم، متوسط و بالا) و شاخص توده بدن (به عنوان مثال، ۴ گروه: کم وزن، طبیعی، اضافه وزن، چاق) است.

فرض 3: یک یا چند متغیر کمکی شما همگی متغیرهای پیوسته هستند. یک متغیر کمکی در واقع  یک متغیر مستقل پیوسته است که برای تولید یک مدل (MANCOVA) به یک مدل( MANOVA) اضافه می‌شود. از این متغیر کمکی برای اصلاح میانگین گروه‌های متغیر مستقل دسته‌بندی شده استفاده می‌شود. در  MANCOVA  متغیر کمکی به طور کلی تنها برای ارائه ارزیابی بهتری از تفاوت‌های بین گروه‌های متغیر مستقل دسته‌بندی شده  بر متغیرهای وابسته است.

فرض 4: مشاهدات باید استقلال داشته باشند، به این معنی که هیچ رابطه‌ای بین مشاهدات در هر گروه از متغیر مستقل یا بین خود گروه‌ها وجود ندارد. به عنوان مثال، باید شرکت کنندگان مختلف در هر گروه از متغیر مستقل به گونه ای باشند که هیچ شرکت کننده ای در بیش از یک گروه نباشد.

فرض 5: باید بین هر جفت متغیرهای وابسته در درون هر گروه از متغیر مستقل رابطه خطی وجود داشته باشد. اگر متغیرها به صورت خطی مرتبط نباشند، توان آزمون کاهش می‌یابد. این بررسی را می‌توان توسط نمودار پراکنش برای هر گروه انجام داد.

فرض 6: باید بین متغیر کمکی و هر متغیر وابسته در درون هر گروه از متغیر مستقل رابطه خطی وجود داشته باشد.  مشابه فرض 5، این بررسی را می‌توان توسط نمودار پراکنش برای هر گروه انجام داد.

فرض 7: همگنی شیب‌های رگرسیونی: رابطه متغیر وابسته و کمکی در هر گروه باید یکسان باشد. در فرض 6 گفتیم که یک رابطه خطی می‌بایستی بین متغیر کمکی و وابسته در هر گروه وجود داشته باشد، هر رابطه‌ی خطی دارای یک شیب است و این شیب‌ها در هر گروه باید تقریبا یکسان باشند.

فرض 8: باید همگنی واریانس‌ها و کوواریانس‌ها وجود داشته باشد. به عبارت دیگر، MANCOVA  فرض می‌کند که واریانس‌ها و کوواریانس‌های متغیرهای وابسته در تمام گروه‌های متغیر مستقل برابر هستند. شما می‌توانید این فرض را در  SPSS با استفاده از ( Box’s M Test ) برابری ماتریس‌های کوواريانس تست کنید.

فرض 9: در گروه‌های متغیر مستقل شما از نظر هر متغیر وابسته نباید داده‌های پرت تک متغیره وجود داشته باشد. اگر مقادیر متغیر وابسته در هر گروهی از متغیر مستقل به گونه‌ای باشد که در مقایسه با نمرات دیگر بسیار کوچک یا بزرگ باشد، به آن‌ها داده‌های پرت تک متغیره گویند.

داده‌های پرت تک متغیره می‌توانند تأثیر منفی زیادی بر نتایج شما داشته باشند زیرا می‌توانند بر میانگین گروه تاثیر بگذارد در نتیجه  بر آزمون آماری نیز تأثیر بگذارد. وقتی حجم داده‌های شما کوچک است تاثیر منفی داده‌های پرت بسیار بیشتر است. داده‌های پرت می‌توانند به وسیله‌ی باقیمانده‌های استاندارد شده در SPSS تشخیص داده شوند.

فرض 10: در گروه‌های متغیر مستقل شما از نظر هر متغیر وابسته نباید داده‌های پرت چند متغیره قابل توجهی وجود داشته باشد. داده‌های پرت چند متغیره مواردی هستند (به عنوان مثال شرکت کنندگان در مثال ما) که ترکیبی غیرمعمول از نمرات بر متغیرهای وابسته در درون هر گروه از متغیر مستقل دارند. برای محاسبه آن در SPSS فاصله Mahalanobis وجود دارد که به وسیله آن می‌توان وجود داده‌های پرت چند متغیره را تشخیص دهیم.

فرض 11: باید نرمال بودن چند متغیره وجود داشته باشد. متاسفانه، فرض نرمال چند متغیره بودن نمی‌تواند به طور مستقیم در SPSS آزمایش شود. معمولا، نرمال بودن هر یک از باقی‌مانده‌ها را برای هر گروه از متغیر مستقل استفاده می‌کنیم تا دریابیم که آیا نرمال چند متغیره بودن وجود دارد یا نه. شما می‌توانید برای این  کار از آزمون شاپیرو ویلک در SPSS استفاده کنید.

مثالی ملموس از تحلیل کوواریانس چندمتغیره

یک محقق می خواهد مشخص کند که آیا سلامت قلب و عروق افراد با وزن طبیعی با سطوح بالاتری از فعالیت بدنی بیشتر است یا خیر (به عنوان نمونه، در مقابل افراد دارای اضافه وزن بیشتر با سطح فعالیت بدنی پایین تر). به این ترتیب، محقق ۱۲۰ شرکت کننده را که متعاقباً بسته به میزان فعالیت بدنی که انجام می‌دادند به یکی از سه گروه تقسیم شدند، انتخاب کرد:

گروهی که به عنوان سطح «کم» فعالیت بدنی طبقه بندی شدند، گروهی که به عنوان سطح «متوسط» فعالیت بدنی طبقه بندی شدند و گروهی که به عنوان سطح «بالا» فعالیت بدنی طبقه بندی شدند.

در هر گروه ۴۰ شرکت کننده وجود داشت. به منظور اندازه گیری سلامت قلب و عروق، محقق سه اندازه گیری از شرکت کنندگان انجام داد: (1) غلظت کلسترول (اندازه گیری شده در mmol/L)، پروتئین واکنشی (نشانگر بیماری های قلبی، اندازه گیری شده در mg/L) و فشار خون  (اندازه گیری شده در mmHg).

انتظار می‌رود که افزایش سطح فعالیت بدنی به طور کلی اثر مفیدی بر سلامت قلب و عروق داشته باشد،  که این فرضیه با سطح غلظت کلسترول، پروتئین واکنشی و فشار خون  اندازه‌گیری می‌شود. با این حال، محقق می‌داند که وزن بدن نیز بر سلامت قلب و عروق اثر می‌گذارد. به این ترتیب، محقق می‌خواهد تفاوت وزن بدن شرکت کنندگان را کنترل کند.

در این مثال غلظت کلسترول را با chol، پروتئین واکنشی را با crp، و فشار خون را با sbp، به عنوان متغیرهای وابسته، نشان می‌دهیم و وزن بدن به عنوان متغیر کمکی  و سه گروه فعالیت بدنی – “کم”را با low، “متوسط”را با moderate و “بالا” را با high – به عنوان گروه‌های متغیر مستقل، نشان می‌دهیم.

در  SPSS پنج متغیر ایجاد می‌کنیم

الف) سه متغیر وابسته پیوسته، chol، crp  و  sbp

ب) متغیر مستقل دسته‌ای، گروه، که دارای سه گروه “کم”، “متوسط” و “بالا” است

 ج) متغیر کمکی وزن که نشان دهنده وزن بدن است. این متغیرها باید به درستی در قسمت Variable View  وData View windows  وارد شوند.

توجه: شما همچنین نیاز به ایجاد یک متغیر اضافی دارید. این متغیر لازم است تا آزمایش کند که آیا پرت‌های چند متغیره‌ای وجود دارد یا نه (به عنوان نمونه، بخشی از فرض 10)

روش آزمون کوواریانس چندمتغیره در SPSS

پنج مرحله زیر به شما نشان می‌دهد زمانیکه 11 پیش فرض بخش قبلی نقض نشوند چگونه به تجزیه و تحلیل داده های خود با استفاده از MANCOVA در  SPSS   بپردازید. در پایان این پنج مرحله به شما نشان می‌دهیم که چگونه نتایج این آزمون را تفسیر کنید.خالی از لطف نیست که در اینجا اعلام کنیم اگر مایل به دریافت دوره آموزشی SPSS هستید اینجا کلیک کنید.

1. دستورات زیر را به‌ترتیب انجام دهید.

…Analyze > General Linear Model > Multivariate

دستور اول در کوواریانس چند متغیره در SPSS

سپس قسمت زیر نمایش داده می‌شود:

نمایش متغیر ها در SPSS

2. متغیرهای وابسته، chol، crp  و  sbp، را به قسمت Dependent Variables ، متغیر مستقل  groupرا به قسمت Fixed Factor و متغیر کمکی وزن را، به قسمت Covariate  انتقال دهید.

وارد کردن متغیر ها برای کواریانس چند متغیره در SPSS

3: اگر شما از نسخه 25 یا بالاتر SPSS  استفاده می‌کنید، می توانید آزمون تعقیبی را به صورت زیر اجرا کنید:

EM means  بر   Option  و   کلیک کنید و پنجره‌های زیر برای محاسبه میانگین‌های حاشیه‌ای و گزینه‌های دیگر نمایش داده می‎‌شود.

محاسبه میانگین های حاشیه ای در SPSS

اگر از نسخه 24 یا پایین تر SPSS اسنفاده می‌کنید با زدن بر گزینه Option   پنجره زیر برای انجام آزمون تعقیبی نمایش داده می‌شود.

انجام آزمون تعقیبی در SPSS

4. سپس روی دکمه Continue کلیک کنید. به پنجره Multivariate  بازگردانده می‌شوید.

5. با کلیک بر روی دکمه OK نتایج MANCOVA را مشاهده خواهید کرد. 

تفسیر نتایج تحلیل کواریانس چند متغیره MANCOVA درSPSS

در SPSS تعدادی از جداول مختلف برای تجزیه و تحلیل MANCOVA بدست می آید، اما شما فقط نیاز به تفسیر جدول Multivariate Tests دارید.

در این مثال فرض می‌شود که 11 فرض زیر بنایی برقرار می‌باشد.

تست های چند متغیره  (Multivariate tests)در SPSS

هدف اصلی از اجرای MANCOVA  این است که ثابت کند که آیا گروه‌های متغیر مستقل، group) ( از نظر آماری به طور معنی‌داری در متغیرهای وابسته (chol، crp  و  sbp، به طورکلی)، پس از کنترل متغیر کمکی(وزن) متفاوت هستند یا خیر. اگر MANCOVA از نظر آماری معنی‌دار باشد، نشان می‌دهد که تفاوت میانگین تعدیل شده معنی‌داری بین گروه‌های متغیر مستقل از نظر متغیر وابسته ترکیبی (پس از تنظیم متغیر کمکی پیوسته) وجود دارد.

به عنوان مثال، نشان می‌دهد که میانگین نمرات ترکیبی متغیرهای وابسته ما – chol، crp و sbp  که برای متغیر کمکی پیوسته، وزن تنظیم شده‌اند، بین سه گروه متغیر مستقل ما،group  (یعنی گروه های فعالیت بدنی “پایین”، “متوسط” و “بالا”) متفاوت است. بنابراین، به منظور تفسیر نتایج  MANCOVA  جدول زیر به کار می آید:

جدول تفسیر تحلیل کواریانس چند متغیره

توجه: ردیف‌های درون سرفصل گروه را هایلایت کرده‌ایم. این سرفصل ردیف همان نام متغیر مستقل شما را خواهد داشت. در مثال ما، group  نام گذاری شده است زیرا این نام متغیر مستقل ما است. بنابراین، هنگامی که داده‌های خود را تجزیه و تحلیل می‌کنید، به دنبال سرفصل ردیفی در جدول Multivariate Tests بگردید که با نام متغیر مستقل شما مطابقت دارد.

در این جدول شما نام‌های مختلفی برای آمار چندمتغیره مشاهده می‌کنید اما رایج‌ترین آن‌ها  Wilks’ Lambda (Λ) (لامبدا ویلکس) است که در این مثال نیز مورد استفاده قرار می‌گیرد.

استفاده از آماره چند متغیره لامبدا ویلکس

اگر MANCOVA از نظر آماری معنی دارباشد، p-value (در ستون “Sig.”) کمتر از 0.05 (p <.05) است. متناوباً، اگر p>.05  ،MANCOVA، از نظر آماری معنی دار نیست. بنابراین، در مثال ما، اگر p <.05 باشد تفاوت آماری معنی داری بین گروه های فعالیت بدنی از نظر متغیرهای سلامت ، پس از کنترل وزن وجود دارد.  متناوباً، اگر p>.05تفاوت آماری معنی داری بین گروه های فعالیت بدنی از نظر متغیرهای سلامت، پس از کنترل برای وزن وجود ندارد.

معنی دار بودن mancova

همانطور که مشاهده می‌کنید چون (p <.05)،MANCOVA  از نظر آماری معنی دار است. یعنی از نظر آماری تفاوت‌های معنی‌داری در متغیرهای سلامت بین سطح فعالیت بدنی، پس از کنترل برای وزن وجود دارد.

گزارش نتایج مانکووا یک طرفه در spss

شما می توانید نتیجه  MANCOVA از نظر آماری معنی دار است را به صورت زیر گزارش کنید:

تفاوت آماری معنی داری بين گروه‌های فعاليت بدنی بر روی متغيرهای وابسته پس از کنترل برای وزن وجود داشت.

گزارش نتایج مانکووا یک طرفه
جدول گروه های فعالیت بدنی روی متغیرهای وابسته

متناوبا، اگر نتیجه تحلیل کواریانس چند متغیره MANCOVA از نظر آماری معنی دارنبود، شما می توانید نتیجه را به صورت زیر گزارش کنید:

تفاوت آماری معنی داری بين گروه های فعاليت بدنی بر روی متغيرهای وابسته  پس از کنترل وزن وجود نداشت.

تحلیل کواریانس

امیدوارم این مطلب برای شما مفید بوده باشد. شما می توانید مطالب جدید و آموزش های جدید را با فالو کردن صفحه اینستاگرام آمار پیشرو و چنانچه سوالی دارید می توانید در بخش نظرات اعلام کنید و کارشناسان ما در آمار پیشرو پاسخ دهند.

اکتبر 8, 2022 1 دیدگاه
0 فیس‌بوکتوییترپینترستایمیل
آزمون-کولموگروف-اسمیرنف
آموزش آمار

آزمون کولموگروف اسمیرنوف برای نرمال بودن داده ها در SPSS

توسط لادن عباس نیا می 10, 2021
نوشته شده توسط لادن عباس نیا

آزمون کولموگروف اسمیرنوف چیست و چه کاربردی دارد؟

آزمون کولموگروف اسمیرنوف یکی از آزمون‌هایی که نام آن را برای بررسی نرمال بودن زیاد شنیده‌ایم. برای استفاده از بسیاری از روش‌های آماری معروف، لازم است داده‌ها از توزیع نرمال پیروی کنند. در حقیقت برای بسیاری از آزمون‌های پارامتری باید داده‌ها دارای توزیع نرمال باشند. به همین علت، لازم است پیش از استفاده از این آزمون‌ها، با بهره‌گیری از روش‌های آماری، درباره نرمال بودن داده‌های مورد بررسی اطمینان حاصل کنیم.

. بنابراین کاربرد آزمون کولموگروف اسمیرنوف در تعیین نرمال بودن داده‌ها به عنوان مثال در تحلیل آماری است.این آزمون به عنوان یکی از خدمات آماری شناخته می شود. که می توانید آن را انجام دهید و یا به افراد متخصص بسپارید. اما این آزمون، تنها روش برای بررسی نرمال بودن نیست و روش‌های گوناگون دیگری نیز برای این منظور وجود دارند.

آزمون-کولموگروف-اسمیرنف

انواع روش های نرمال بودن داده

در این مطلب، روش‌های بررسی نرمال بودن داده‌ها را شرح خواهیم داد. این روش‌ها دارای دو نوع کلی هستند . برخی از آن‌ها بر مبنای آزمون‌های آماری و برخی دیگر بر مبنای بررسی‌های بصری هستند. آزمون‌های آماری دارای این مزیت هستند که قضاوت عینی درباره نرمال بودن را فراهم می‌کنند، اما نقص آن‌ها این است که به اندازه کافی در حجم نمونه کوچک حساس نیستند و در حجم نمونه بزرگ نیز بیش از حد حساس هستند. به همین علت، برخی از آماردان‌ها ترجیح می‌دهند از نمودارها استفاده کنند که توسط آن‌ها می‌توان قضاوت ذهنی درباره نرمال بودن انجام داد.

مزیت تفسیرهای نموداری این است که در مواقعی که آزمون‌های عددی کم‌تر یا بیش‌تر از حد حساس هستند، امکان قضاوت خوب را به ما می‌دهند. با این حال روش‌های نموداری، بی‌طرف نیستند که نقص آن‌ها به شمار می‌رود. اگر از تجربه کافی برای تفسیر نمودارهای مربوط به بررسی نرمال بودن داده‌ها برخوردار نباشیم، بهتر است به نتایج عددی اتکا کنیم.

در ادامه، رایج‌ترین روش‌های بررسی نرمال بودن داده‌ها در نرم‌افزار SPSS را خواهیم دید و به ویژه بر اجرای آزمون کولموگروف اسمیرنوف در SPSS تمرکز خواهیم داشت. نرم افزار spss به عنوان یکی از پر کاربرد ترین نرم افزار های آماری شناخته می شود،دوره آموزش نرم افزار SPSS یک دوره کامل که با مثال های کاربردی تمامی مباحث کاربردی در نرم افزار را گام به گام آموزش میدهد، علاوه بر اینکه از پشتیبانی خیلی خوبی برای انجام پروژه برخوردار است.یک فرصت اشتعال خوب نیز در پروژه های آماری برای مهارت آموزان فراهم خواهد شد

SPSS چیست؟ به زبان ساده

آزمون کولموگروف اسمیرنوف در spss

فرض کنید مجموعه داده‌هایی شامل دو متغیر داریم. یکی از این متغیرها سطح آموزش نرم‌افزار (Course) در سه سطح مبتدی، متوسط و پیشرفته، و دیگری زمان صرف‌شده برای حل مسئله با نرم‌افزار (Time) است. داده‌ها شامل 30 آزمودنی است (حجم نمونه برابر با 30 است).  در این مجموعه داده‌ها، قصد داریم نرمال بودن متغیر زمان (Time) را با استفاده از SPSS بررسی کنیم. برای این کار، مراحل زیر را طی می‌کنیم:

مرحله 1

ابتدا از مسیر زیر، پنجره Explore را باز می‌کنیم:

آزمون-کولموگروف-اسمیرنوف-در-SPSS

مرحله 2

پنجره Explore به صورت شکل زیر ظاهر می‌شود:

Explore-in-SPSS

مرحله 3

متغیر زمان را که به دنبال بررسی نرمال بودن آن هستیم، همانند شکل زیر به قسمت فهرست متغیرهای وابسته منتقل می‌کنیم:

Explore-Variable

مرحله 4

حال روی دکمه آماره‌ها (Statistics) کلیک می‌کنیم تا پنجره آماره‌ها همانند شکل زیر ظاهر شود:

explore-Statistics-in-spss

پس از آن کلید ادامه (Continue) را می‌زنیم.

مرحله 5

حال روی دکمه Plots کلیک می‌کنیم. در پنجره‌ای که ظاهر می‌شود،‌ گزینه‌ها را همانند شکل زیر انتخاب می‌کنیم:

explore-plots-in-SPSS

مرحله 6

روی کلید ادامه (Continue) کلیک می‌کنیم.

مرحله 7

روی کلید Ok کلیک می‌کنیم.

خروجی SPSS در بررسی نرمال بودن داده‌ها

وقتی در SPSS از پنجره Explore استفاده می‌کنیم، در خروجی آن تعداد زیادی جدول و نمودار ظاهر می‌شود. دلیلش آن است که از این پنجره فقط برای بررسی نرمال بودن استفاده نمی‌شود و کاربردهای دیگری نیز دارد. اما وقتی به دنبال بررسی نرمال بودن داده‌ها هستیم، معمولاً بر روی دو تا از این خروجی‌ها تمرکز می‌کنیم: جدول آزمون‌های نرمال که مربوط به روش‌های عددی بررسی نرمال بودن است، و نمودار چندک-چندک (Q-Q) نرمال که مربوط به روش‌های نموداری می‌شود.

آزمون کولموگروف اسمیرنوف برای بررسی نرمال بودن

test-of-نرمالity-Kolmogorov–Smirnov

در جدول بالا، نتایج مربوط به دو آزمون آماری معروف برای نرمال بودن، یعنی کولموگروف اسميرنف و شاپیرو ویلک نشان داده شده است.

نکته: ممکن است بپرسید آیا دو آزمون کولموگروف اسميرنف و شاپیرو ویلک با هم تفاوتی دارند و از کدام یک از آن‌ها باید برای بررسی نرمال بودن داده‌ها استفاد کرد. آزمون شاپیرو ویلک فقط برای بررسی نرمال بودن داده‌ها استفاده می‌شود و دارای توان آماری بیش‌تری است. در حالی که آزمون کولموگروف اسميرنف را می‌توان برای بررسی تعلق داده‌ها به سایر توزیع‌های آماری نیز استفاده کرد. این آزمون دارای توان آماری کم‌تری نسبت به آزمون شاپیرو ویلک است و به داده‌های پرت نیز حساس است. بعضی آماردانان، آزمون شاپیرو ویلک را آزمون بهتری برای بررسی نرمال بودن داده‌ها می‌دانند، با این حال استفاده از آزمون کولموگروف اسميرنف رایج‌تر است.

حال چگونه از نتیجه آزمون‌های کولموگروف اسميرنف و شاپیرو ویلک، نرمال بودن را تشخیص بدهیم؟ اگر مقدار Sig در جدول این آزمون‌ها بزرگ‌تر از 0.05 باشد، آن‌گاه داده‌ها نرمال هستند و در صورتی که از 0.05 کوچک‌تر باشد، توزیع داده‌ها نرمال نیست. با توجه به جدول بالا می‌بینیم که برای آزمون کولموگروف اسميرنف، مقدار Sig برابر با 0.200 شده که چون از 0.05 بزرگ‌تر است، لذا نشان‌دهنده نرمال بودن داده‌ها است. این نتیجه برای آزمون شاپیرو ویلک نیز برقرار است، زیرا مقدار Sig آن برابر با 0.827 و بزرگ‌تر از 0.05 است.

نمودار Q-Q برای بررسی نرمال بودن

برای بررسی نرمال بودن داده‌ها از روی نمودار، می‌توانیم از خروجی مربوط به نمودار Q-Q استفاده کنیم. نمودار Q-Q مربوط به این مثال در شکل زیر آمده است. اگر داده‌ها به طور نرمال توزیع شده باشند، نقاط داده‌ها نزدیک به خط اریب قرار می‌گیرند. چنان چه نقاط داده‌ها از خط اریب فاصله داشته باشند و الگوی آن‌ها شبیه به این خط نباشد، آن گاه دارای توزیع نرمال نیستند.

نرمال-Q-Q-plot-of-time

همان طور که در نمودار Q-Q در شکل بالا می‌توانیم ببینیم، نقاط داده‌ها بسیار نزدیک به خط اریب هستند و به نظر نمی‌رسد الگوی آن‌ها چندان تفاوتی با این خط داشته باشد. لذا با توجه به این نمودار، داده‌ها دارای توزیع نرمال هستند.

در این مقاله سعی کردیم یکی از رایج ترین روش های آزمون نرمال بودن نمودار یعنی آزمون کولموگروف اسمیرنوف به شما توضیح دهیم. چنانچه مشکلی در میانه راه دارید می توانید از افراد متخصص مشورت بگیرید، سایت آمار پیشرو در صفحه مشاوره آماری رایگان امکانی را فراهم کرده تا بتوانید با افراد متخصص ارتباط برقرار کنید و مشکلات پروژه را با آن ها مطرح کنید.

برای آگاهی از روش های دیگر نرمال بودن و بسیاری دیگر از مباحث آماری می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید. اگر می خواهید پروژه خود را به افراد خبره بسپارید و در کمترین زمان و با منصفانه ترین هزینه آن ها را تحویل بگیرید. به صفحه ثبت سفارش مراجعه کرده و با تکمیل فرم د راولین فرصت کارشناسان ما با شما تماس خواهند گرفت.

می 10, 2021 14 نظرات
0 فیس‌بوکتوییترپینترستایمیل
تحلیل-خوشه-ای
آمار پیشرفته

تحلیل خوشه ای و روش های خوشه بندی با 3 مثال

توسط لادن عباس نیا فوریه 11, 2021
نوشته شده توسط لادن عباس نیا

مفهوم تحلیل خوشه ای چیست؟

طبقه بندی پدیده‌ها یا متغیرها از ارکان هر علمی است و تحلیل خوشه‌ای یکی از روش‌های تحلیل چند متغیره است که برای طبقه بندی عناصر یا متغیرها و تشخیص گروه‌های همگن به کار می‌رود. تحلیل خوشه‌ای طبقه بندی عناصر یا متغیرها به گروه‌های همگن است به گونه‌ای که عناصر (یا متغیرهای) هر گروه دارای بیشترین شباهت با هم و کمترین شباهت با عناصر (یا متغیرهای) گروه‌های دیگر باشند.

تحلیل خوشه‌ای روش‌های مختلفی دارد که یکی از پرکاربردترین آنها روش خوشه بندی سلسله مراتبی است. طبقه بندی متغیرها را نیز به خوبی می‌توان با تحلیل عامل انجام داد. از این رو در اینجا فقط به معرفی تحلیل خوشه‌ای سلسله مراتبی عناصر می‌پردازیم.در ادامه تحلیل خوشه‌ای سلسله مراتبی عناصر را به اختصار تحلیل خوشه‌ای می‌خوانیم.

تحلیل خوشه‌ای اساساً برای طبقه بندی عناصر بر حسب متغیر یا متغیرهای کمّی است چه متغیرهای کیفی فی‌النفسه دارای طبقه بندی هستند مانند جنسیت با دو طبقه زن و مرد یا نگرش‌های اجتماعی با دو طبقه موافق و مخالف یا سه طبقه موافق و بی‌نظر و مخالف یا پنج طبقه کاملاً موافق و موافق و بی‌نظر و مخالف و کاملاً مخالف.

اما وقتی با متغیر کمّی سروکار داریم مجموعه‌ای (دامنه‌ای) از مقادیر داریم که برای طبقه بندی آن یا در واقع طبقه بندی عناصر بر حسب آن ناگزیریم از روشی برای طبقه بندی استفاده کنیم. به طور کلی متغیر کمّی پیوسته را می‌توان هم به طور ساده طبقه بندی کرد و هم با تحلیل خوشه‌ای.

متغیر کمّی پیوسته را می‌توان به طور ساده به سه صورت طبقه بندی کرد: طبقه بندی هم‌عرض و طبقه بندی هم‌فراوانی و طبقه بندی متوازن. در اینجا با یک مثال ساده (مثال1) این طبقه بندی‌ها را به اختصار توضیح می‌دهیم و با طبقه بندی تحلیل خوشه‌ای مقایسه می‌کنیم.

تعریف 1: تحلیل خوشه‌ای سلسله مراتبی عناصر طبقه بندی عناصر برحسب همگنی در یک یا چند متغیر کمّی است.

در طبقه بندی هم‌عرض عرض همه طبقات را یکسان می‌گیریم. به این منظور ابتدا مقادیر عناصر (داده‌ها) را به ترتیب نزولی مرتب می‌کنیم و دامنه مقادیر (تفاضل مقدار حداکثر از حداقل به اضافه یک) را پیدا کرده و سپس آن را بر تعداد مورد نظر تقسیم می‌کنیم تا عرض طبقات با نماد W به دست آید:

فرمول-تحلیل-خوشه-ای

که در آن Max مقدار حداکثر است وMin  مقدار حداقل توزیع متغیر کمّی وU  واحد گرد شدن مقادیر وK  تعداد طبقات که بنابر مقتضیات تحقیق تعیین می‌شود.

مثال 1: داده‌های جدول 1 توزیع امید به زندگی زنان (X1) و درصد جمعیت باسواد (X2) نمونه‌ای از کشورهای جهان در سال 1995 است. عرض طبقات در طبقه بندی هم‌عرض متغیر X1 (امید زندگی زنان) مثال 1 چنانچه تعداد طبقات را 3 در نظر بگیریم عبارت است از:

Cluster-analysis-formula
table1
جدول 1 توزیع امید زندگی زنان و باسوادی بخشی از کشورهای جهان در 1995

عرض طبقات در طبقه بندی هم‌عرض امید زندگی زنان 13/3 است که اگر به واحد گرد شدن مقادیر متغیر که در اینجا یکان است گرد کنیم 13 می‌شود. با طبقه بندی متغیر X1 (امید زندگی زنان) به سه طبقه هم عرض جدول 2 می‌رسیم.

table2
جدول 2 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی هم عرض)

تحلیل خوشه ای یکی از خدمات تحلیل آماری است که شما می توانید آن را خود انجام دهید یا به یک شرکت آماری بسپارید، اگر وقت لازم را دارید می توانید در این مطلب کامل یک مثال ملمویس را حل کردیم که کامل آموزش ببینید، اما چنانچه وقت کافی ندارید می توانید این نوع تحلیلرا به عنوان یکی از خدمات تحلیل آماری با تعریف پروژه آماری از بخش خدمات سفارش دهید.

طبقه بندی هم فراوانی و کاربرد آن در تحلیل خوشه ای

در طبقه بندی هم‌فراوانی، فراوانی همه طبقات را یکسان می‌گیریم. به این منظور کل فراوانی را به تعداد طبقات مورد نظر تقسیم می‌کنیم تا به طبقاتی برسیم که فراوانی آنها یکسان (F) است:

The-classification-formula-abundant

که در آن N کل فراوانی است و K تعداد طبقات که بنابر مقتضیات تحقیق تعیین می‌شود.

به عنوان مثال فراوانی یکسان طبقات در طبقه بندی هم‌فراوانی متغیر X1 (امید زندگی زنان) جدول 1 چنانچه تعداد طبقات را 3 در نظر بگیریم عبارت است از:

The-classification-formula-abundant1

سپس براساس داده‌هایی که به ترتیب نزولی مرتب شده است حدود هر طبقه را براساس مقدار حداقل و حداکثر موردهای آن طبقه تشکیل می‌دهیم مانند جدول3.

table3
جدول 3 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی هم‌فراوانی)

طبقه بندی متوازن موازنه‌ای بین دو نوع طبقه بندی پیشین است. در طبقه بندی متوازن سعی می‌شود موازنه‌ای بین عرض طبقات و فراوانی آنها برقرار گردد. طبقه بندی طوری صورت می‌گیرد که حتی‌الامکان نه عرض طبقات ناهمگون شود و نه فراوانی آنها.

خوشه بندی چیست و چه کاربردی دارد؟

اما خوشه بندی نوعی طبقه بندی پیشرفته است که براساس میزان تشابه و همگنی عنصرها در یک یا چند متغیر صورت می‌گیرد.

به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 برحسب متغیر X1  (امید زندگی زنان) به سه طبقه به طبقات همگن جدول 4 می‌رسیم: طبقه اول شامل چهار کشور اوگاندا و افغانستان و تانزانیا و زامبیاست که امید زندگی زنان آنها بین 43 الی 45 سال است. طبقه دوم شامل شش کشور کنیا و نیجریه و سنگان و کامرون و لیبی و عراق است که امید زندگی زنان آنها بین 55 تا 68 سال است. طبقه سوم شامل دو کشور سوئد و فرانسه است که امید زندگی زنان آنها بین 81 الی 82 سال است.

table4
جدول 4 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی با تحلیل خوشه‌ای)

تکنیک خوشه بندی نه تنها متغیر کمّی را بر حسب همگنی عناصر به تعداد طبقات مورد نظر محقق تقسیم می‌کند بلکه متغیر را در سطوح مختلف همگنی عناصر به صورت یک نمودار درختی طبقه بندی می‌کند. این امر به محقق کمک می‌کند تا با مقایسه طبقه بندی سطوح مختلف مناسبترین طبقه بندی را انتخاب کند.

Clustering-tree-diagram
شکل 1 نمودار درختی خوشه بندی کشورها بر حسب امید به زندگی زنان مثال 1

به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 برحسب متغیر X1 (امید زندگی زنان) نمودار درختی شکل 1 ارائه می‌شود. همانطور که در این شکل می‌بینیم در سطح اول هریک از کشورها (عناصر) یک طبقه مجزا را تشکیل می‌دهد.

در سطح دوم کشورها به چهار طبقه تقسیم شده‌اند: طبقه اول شامل چهار کشور سنگال و کامرون و نیجریه و کنیا و طبقه دوم شامل دو کشور عراق و لیبی و طبقه سوم شامل چهار کشور تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه چهارم شامل دو کشور سوئد و فرانسه.

در سطح سوم کشورها به سه طبقه تقسیم شده‌اند: طبقه اول شامل شش کشور سنگال و کامرون و نیجریه و کنیا و عراق و لیبی و طبقه دوم شامل چهار کشور تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه سوم شامل دو کشور سوئد و فرانسه.

در سطح چهارم کشورها به دو طبقه تقسیم شده‌اند: طبقه اول شامل ده کشور سنگال و کامرون و نیجریه و کنیا و عراق و لیبی و تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه دوم شامل دو کشور سوئد و فرانسه.

به این ترتیب در این مثال می‌بینیم براساس میزان تشابه کشورها (عناصر) در متغیر امید زندگی زنان سه نوع طبقه بندی ارائه شده است (چهار طبقه‌ای و سه طبقه‌ای و دو طبقه‌ای) و ما می‌توانیم با مقایسه آنها و وجه نظری و مفهومی آنها طبقه بندی مناسب را انتخاب کنیم.

اما مزیت اصلی و عمده تکنیک خوشه بندی این است که با این تکنیک می‌توان عناصر را برحسب ترکیبی از چند متغیر نیز طبقه بندی کرد. به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 بر حسب دو متغیر X1 (امید زندگی زنان) و X2 (درصد جمعیت باسواد) نمودار درختی شکل 2 ارائه می‌شود. همانطور که در این شکل می‌بینیم طبقه بندی عناصر مثال 1 برحسب دو متغیر X1 و X2 با طبقه بندی آنها صرفاً برحسب متغیر X1 نسبتا متفاوت است.

Clustering-tree-diagram2
شکل 2 نمودار درختی خوشه بندی کشورها بر حسب دو متغیر امید به زندگی زنان و درصد جمعیت باسواد مثال 1

مراحل تحلیل خوشه‌ای

تحلیل خوشه‌ای شامل دو مرحله اصلی است: تعیین اندازه شباهت جفت جفت عناصر مورد تحلیل و سرانجام خوشه بندی عناصر براساس اندازه شباهت با استفاده از یکی از روش‌های خوشه بندی.

تعیین اندازه شباهت و ضرایب آن ها

در تحلیل خوشه‌ای طبقه بندی براساس اندازه شباهت عناصر صورت می‌گیرد. اندازه شباهت مقدار نزدیکی یا دوری عناصر نسبت به یکدیگر است که با دو دسته از ضرایب سنجیده می‌شود: یکی ضرایب عدم تشابه و دیگری ضرایب تشابه. ضرایب عدم تشابه مبتنی بر اندازه فاصله و دوری هر عنصر از عنصر دیگر است. معمولا برای تحلیل خوشه‌ای از این نوع ضرایب استفاده می‌شود. ضرایب تشابه هم مبتنی بر نزدیکی هر عنصر از عنصر دیگر است.

ضرایب عدم تشابه

ضرایب عدم تشابه انواع گوناگونی دارد که مهم ترین آنها عبارتند از مجذور فاصله اقلیدسی و فاصله اقلیدسی و فاصله بلوک شهر و فاصله چبایچوف.

مجذور فاصله اقلیدسی

مجذور فاصله اقلیدسی (با نماد eij2) دوعنصر در مجموعه‌ای از متغیرها عبارت است از مجموع مجذور تفاوت مقادیر دو عنصر در هریک از متغیرها:

The-squared-formula-of-the-Euclidean-distance

که در آن Xi مقدارعنصر i ام و Xj عنصر i ام در متغیر X است.        

به عنوان مثال مجذور فاصله اقلیدسی دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

2The-squared-formula-of-the-Euclidean-distance

یا مجذور فاصله اقلیدسی دو عنصر چهارم و پنجم (کشور زامبیا و کنیا) عبارت است از:

2The-squared-formula-of-the-Euclidean-distance3

دامنه مجذور فاصله اقلیدسی از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله اقلیدسی

فاصله اقلیدسی (با نماد eij) دوعنصر در مجموعه‌ای از متغیرها عبارت است از جذر مجموع مجذور تفاوت مقادیر دو عنصر در هریک از متغیرها:

Euclidean-distance-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر j ام در متغیرX است.

به عنوان مثال فاصله اقلیدسی دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Euclidean-distance-formula1

دامنه فاصله اقلیدسی هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله بلوک

فاصله بلوک شهر یا اختصاراً فاصله بلوک (با نماد blij) دو عنصر در مجموعه‌ای از متغیرها عبارت است از مجموع قدر مطلق تفاوت مقادیر دو عنصر در هریک از متغیرها:

1Block-spacing-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر jام در متغیر X است.

به عنوان مثال فاصله بلوک دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

2Block-spacing-formula

دامنه فاصله بلوک هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله چبایچوف

فاصله چبایچوف (با نماد chij) دوعنصر در مجموعه‌ای از متغیرها عبارت است از بزرگ ترین قدر مطلق تفاوت مقادیر دو عنصر در بین متغیرها:

Chebaychev-distance-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر j ام در متغیر X است و max بزرگ‌ترین (حداکثر) تفاوت مقادیر دو عنصر در بین متغیرها.

به عنوان مثال فاصله چبایچوف دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Chebaychev-distance-formula1

دامنه فاصله چبایخوف هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

ضرایب تشابه

ضرایب عدم تشابه انواع گوناگونی دارد که در اینجا یکی از مهم ترین آنها را که کسینوس بردار مقادیر است معرفی می‌کنیم.

کسینوس بردار مقادیر

کسینوس بردار مقادیر (با نماد coij) دو عنصر در مجموعه‌ای از متغیرها عبارت است از مجموع حاصل‌ضرب مقادیر دو عنصر در هریک از متغیرها تقسیم بر جذر مجموع مجذور مقدار یک عنصر در متغیرها ضرب در مجموع مجذور مقدار عنصر دیگر در متغیرها:

Cosine-vector-values

که در آن Xi مقدار i ام و Xj مقدار عنصرj ام در متغیر X است.

به عنوان مثال کسینوس بردار مقادیر دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Cosine-vector-values1

دامنه مقادیر کسینوس بردار از 1- (عدم تشابه کامل) تا 1+ (تشابه کامل) است.

خوشه بندی عناصر آخرین مرحله تحلیل خوشه ای

خوشه بندی عناصر مرحله اصلی و نهایی تحلیل خوشه‌ای است. در این مرحله عناصر بر اساس شباهت‌شان به هم طبقه بندی می‌شوند. در خوشه بندی ابتدا همه عناصر خوشه‌های گوناگونی به حساب می‌آیند.

سپس دو خوشه‌ای که دارای کمترین فاصله (بیشترین شباهت) به هم هستند با هم ادغام می‌شوند و یک خوشه جدید تشکیل می‌دهند. باز در مرحله بعدی دو خوشه که دارای کمترین فاصله هستند با هم ادغام می‌شوند و خوشه جدید دیگری تشکیل می‌دهند. این ادغام دو خوشه در هر مرحله و تشکیل خوشه‌های بزرگ‌تر متوالیاً ادامه می‌یابد و سرانجام به ترکیب تمام خوشه‌ها و رسیدن به یک خوشه می‌رسد.

خوشه‌بندی نیز با روش‌های گوناگونی صورت می‌گیرد. در هر روش نیز برای اندازه شباهت عناصر می‌توان هر یک از ضرایب تشابه یا ضرایب عدم تشابه را به کار برد. با وجود این معمولاً ضریب مجذور فاصله اقلیدسی برای اندازه شباهت خوشه‌ها استفاده می‌شود.

مقایسه روش های خوشه بندی

رایج‌ترین روش‌های خوشه‌بندی عبارتند از متوسط گروهی و متوسط درون‌گروهی و تک اتصالی و تام اتصالی و وارد. در بین این روش‌ها روش خوشه‌بندی تک اتصالی خوشه‌بندی منقبض (نزدیک به هم) تولید می‌کند و روش خوشه‌بندی تام اتصالی خوشه‌بندی منبسط (دور از هم). اما روش خوشه‌بندی متوسط گروهی خوشه‌بندی متعادلی بین این دو تولید می‌کند. از این رو محققان بیشتر روش متوسط گروهی را به کار می‌برند. روش خوشه‌بندی وارد نیز بعد از روش متوسط گروهی پرکاربردترین روش خوشه‌بندی است.

روش متوسط گروهی

در روش متوسط گروهی که عنوان اختصاری روش جفت گروهی ناموزون با استفاده از متوسط حسابی(UPGMA) است و اتصال بین گروهی هم خوانده می‌شود در هر مرحله خوشه‌بندی فاصله بین جفت جفت خوشه‌ها بر اساس ضریب متوسط گروهی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب متوسط گروهی با نماد ga(i)(j) هم عبارت است از مجموع اندازه شباهت عناصر یک خوشه با عناصر خوشه دیگر تقسیم بر تعداد اندازه شباهت عناصر دو خوشه:

Group-intermediate-method

که در آن re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است و N(i)N(j) که حاصل‌ضرب تعداد عناصر خوشه (i) ام در تعداد عناصر خوشه (j) ام است تعداد اندازه شباهت عناصر دو خوشه است.

در ادامه عناصر مثال 2 را که برای سادگی محاسبات بخشی از کشورهای مثال 1 است با روش متوسط گروهی خوشه‌بندی می‌کنیم و اندازه شباهت عناصر را هم مجذور فاصله اقلیدسی عناصر می‌گیریم.

مثال 2: داده‌های جدول 5 توزیع امید زندگی زنان (X1) و درصد جمعیت باسواد (X2) نمونه‌ای از کشورهای جهان در سال 1995 است. جدول 6 هم ماتریس اندازه شباهت عناصر (کشورها) بر حسب دو متغیر مذکور است که مبتنی بر مجذور فاصله اقلیدسی است.

Life-expectancy-distribution
جدول 5 توزیع امید زندگی زنان و باسوادی بخشی از کشورهای جهان 1995

مرحله صفر در خوشه بندی

در ابتدای خوشه‌بندی که مرحله صفر خوانده می‌شود هر عنصر یک خوشه به حساب می‌آید. در این مرحله ضریب متوسط گروهی دو خوشه همان اندازه شباهت دو عنصر است. به عنوان مثال ضریب متوسط گروهی خوشه (1) با خوشه (2) بر مبنای مجذور فاصله اقلیدسی عناصر دو خوشه (جدول 6) عبارت است از:

Group-intermediate-method1
Similarity-size-matrix
جدول 6 ماتریس اندازه شباهت عناصر مثال 2
Cluster-distance-diagram
شکل 3 نمودار فاصله خوشه‌ها در مرحله صفر مثال 2

خوشه‌بندی مرحله صفرمثال 2 را می‌توان به صورت نمودار فاصله خوشه‌ها نشان داد (شکل3). جدول 7 هم ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی در مرحله صفر است که مانند ماتریس اندازه شباهت عناصر (جدول7) است.

Similarity-size-matrix1
جدول 7 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله صفر
مرحله یک

در مرحله یک با وارسی فاصله خوشه‌های مرحله صفر (جدول 7) می‌بینیم دو خوشه (3) و (4) دارای کمترین فاصله هستند. ضریب متوسط گروهی آنها 10 است که کمترین ضریب متوسط گروهی است. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 4).

1Cluster-distance-diagram
شکل 4 نمودار فاصله خوشه‌ها در مرحله 1 مثال 2

در این مرحله ضریب متوسط گروهی خوشه‌های مرحله قبل همان اندازه‌های قبلی است و فقط باید ضریب متوسط گروهی خوشه جدید (3و4) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط گروهی خوشه (1) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient2

و خوشه (2) با خوشه (3و4):

Group-average-coefficient21

و خوشه (5) با خوشه (3و4):

Group-average-coefficient31

و خوشه (6) با خوشه (3و4):

Group-average-coefficient4

حال ماتریس فاصله خوشه‌های مرحله یک را تشکیل می‌دهیم (جدول 8)

Similarity-size-matrix2
جدول 8 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 1

مرحله دو

در این مرحله با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 8) می‌بینیم دو خوشه (5) و خوشه (6) دارای کمترین ضریب متوسط گروهی هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 5).

1Cluster-distance-diagram1
شکل 5 نمودار فاصله خوشه‌ها در مرحله 2 مثال 2

در مرحله 2 هم ضریب متوسط گروهی خوشه‌های گروهی خوشه‌های مرحله قبل همان اندازه‌های قبلی است و فقط باید ضریب متوسط گروهی خوشه جدید (5 و6) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط گروهی خوشه (1) با خوشه (5 و6) با توجه به ماتریس اندازه شباهت عناصر(جدول 6) عبارت است از:

Group-average-coefficient44

و ضریب متوسط گروهی خوشه (2) با خوشه (5 و6):

Group-average-coefficient5

و ضریب متوسط گروهی خوشه (3 و4) با خوشه (5 و6):

Group-average-coefficient65

حال ماتریس فاصله خوشه‌های مرحله 2 را تشکیل می‌دهیم (جدول 9).

Similarity-size-matrix3
جدول 9 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 2

مرحله سه

در مرحله 3 با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 9) می‌بینیم دو خوشه (1) و (2) دارای کمترین فاصله خوشه‌ها (116) هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 6).

2Cluster-distance-diagram1
شکل 6 نمودار فاصله خوشه‌ها در مرحله 3 مثال 2

در این مرحله هم ضریب متوسط گروهی خوشه جدید (1و2) را با بقیه خوشه‌ها احتساب کنیم. ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient5

و خوشه (1و2) با خوشه (5 و6):

Group-average-coefficient6

حال ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 10).

Similarity-size-matrix4
جدول 10 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 3

مرحله چهار

در این مرحله هم با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 10) می‌بینیم دو خوشه (3و4) و (5و6) دارای کمترین ضریب متوسط گروهی (180) هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 7).

2Cluster-distance-diagram13
شکل 7 نمودار فاصله خوشه‌ها در مرحله 4 مثال 2

در مرحله چهار فقط باید ضریب متوسط گروهی خوشه جدید (3و4و5و6) را با خوشه (1و2) را احتساب کنیم. ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4و5و6) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient65

حال ماتریس فاصله خوشه‌های مرحله چهار را تشکیل می‌دهیم (جدول 11).

Similarity-size-matrix5
جدول 11 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3و4و5و6) و(1و2) که فاصله آن دو بر حسب ضریب متوسط گروهی 409/25 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد (شکل 8).

3Cluster-distance-diagram13
شکل 8 نمودار فاصله خوشه‌ها در مرحله 5 مثال 2

نمودار درختی متوسط گروهی

تمام مراحل خوشه‌بندی را می‌توان به طور مختصر در نمودار درختی نشان داد مانند شکل 9 که نمودار درختی خوشه‌بندی با روش متوسط گروهی مثال 2 است. در این نمودار درختی می‌بینیم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله (ضریب متوسط گروهی) 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 با هم ترکیب شده‌اند.

در مرحله 3 خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3و4) و خوشه (5و6) در فاصله 180 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3و4و5و6) و خوشه (1و2) در فاصله 409 با هم ترکیب شده‌اند.

این ارائه یکپارچه خوشه‌بندی روابط بین خوشه‌ها را به سهولت به ما نشان می‌دهد. به عنوان مثال نمودار درختی مثال 2 (شکل9) نشان ‌می‌دهد که عناصر خوشه (3و4) به هم نزدیک‌ترند تا عناصر خوشه (5و6). به بیان دیگر خوشه (3و4) همگن‌تر از خوشه (5و6) است. همینطور دو خوشه (3و4) و (5و6) همگن‌تر از خوشه (1و2) هستند. گذشته از این دو خوشه (3و4) و(5و6) به هم نزدیکترند تا به خوشه (1و2).

به این ترتیب نمودار درختی خوشه‌بندی به محقق کمک می‌کند تا با توجه به روابط خوشه‌ها و فاصله خوشه‌ها از بین سطوح مختلف طبقه‌بندی (خوشه‌بندی) آن سطحی را که مناسب‌تر می‌بیند انتخاب کند.

Clustering-tree-diagram3
شکل 9 نمودار درختی با روش ضریب متوسط گروهی مثال 2

روش متوسط درون‌گروهی

روش متوسط درون گروهی که اتصال درون‌گروهی نیز خوانده می‌شود مانند روش متوسط گروهی است با این تفاوت که اندازه شباهت عناصر درون خوشه‌ها نیز به حساب می‌آید. در این روش فاصله بین خوشه‌ها با ضریب متوسط درون‌گروهی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب متوسط درون‌گروهی با نماد wga(i)(j) عبارت است از حاصل‌جمع مجموع اندازه شباهت جفت‌جفت عناصر یک خوشه با مجموع اندازه شباهت جفت‌جفت عناصر خوشه دیگر با مجموع اندازه شباهت عناصر یک خوشه با عناصر خوشه دیگر تقسیم بر مجموع تعداد عناصر دو خوشه ضرب در مجموع تعداد عناصر دو خوشه منهای یک تقسیم بر دو:

wga

که در آن re(ih) اندازه شباهت عنصرi ام وh ام از خوشه (i) ام است. re(jk) هم اندازه شباهت عنصرj ام و k ام از خوشه (j) ام است. re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است. N(i) تعداد عناصر خوشه i ام است و N(j) هم تعداد عناصر خوشه (j) ام.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ضریب متوسط درون گروهی دو خوشه همان اندازه شباهت دو عنصر است. به عنوان مثال ضریب متوسط درون گروهی خوشه (1) با خوشه (2) بر مبنای مجذور فاصله اقلیدسی عناصر دو خوشه (جدول 6) عبارت است از:

wga1

مرحله یک

در این مرحله دو خوشه (3) و (4) که دارای کمترین فاصله ( کمترین ضریب متوسط درون گروهی) هستند با هم ترکیب می‌شوند.

در اینجا ضریب متوسط درون گروهی خوشه جدید (3و4) با خوشه (1) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga2

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (2):

wga3

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (5):

wga4

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (6):

wga5

حال ماتریس فاصله خوشه‌های مرحله یک را تشکیل می‌دهیم (جدول 12).

Similarity-size-matrix6
جدول 12 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله1

مرحله دو

در این مرحله هم دو خوشه (5) و(6) که دارای کمترین ضریب متوسط درون گروهی (25) هستند با هم ترکیب می‌شوند. حال ضریب متوسط درون گروهی خوشه جدید (5و6) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط درون گروهی خوشه (5و6) با خوشه (1) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga6

و ضریب متوسط درون گروهی خوشه (5و6) با خوشه (2):

wga7

و ضریب متوسط درون گروهی خوشه (5و6) با خوشه (3و4):

wga8

و ماتریس فاصله خوشه‌های مرحله دو را تشکیل می‌دهیم (جدول 13).

Similarity-size-matrix7
جدول 13 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله2

مرحله سه

در این مرحله دو خوشه (1) و(2) را که دارای کمترین ضریب متوسط گروهی (116) هستند با هم ترکیب می‌کنیم.

حال ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga10

و ضریب متوسط درون گروهی خوشه (1و2) با خوشه (5و6):

wga11

سپس ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 14).

Similarity-size-matrix8
جدول 14 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله 3

مرحله چهار

در این مرحله دو خوشه (3و4) و (5و6) را که دارای کمترین ضریب متوسط درون گروهی (125/83) هستند با هم ترکیب می‌کنیم.

حال ضریب متوسط درون گروهی خوشه (1و2) با خوشه (3و4و5و6) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga12

سپس ماتریس فاصله خوشه‌های مرحله چهار را تشکیل می‌دهیم (جدول 15).

Similarity-size-matrix9
جدول 15 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله4

در این مرحله با ترکیب خوشه (3و4و5و6) و خوشه (1و2) که فاصله (ضریب متوسط درون گروهی آنها) 276/33 است به خوشه نهایی می‌رسیم که تمام عناصر را در برمی‌گیرد.

نمودار درختی ضریب متوسط درون گروهی

شکل 10 نمودار درختی خوشه‌بندی با روش ضریب متوسط درون گروهی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (1) و خوشه (2) در فاصله ضریب متوسط درون گروهی 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله ضریب متوسط درون گروهی 25 با هم ترکیب شده‌اند.

در مرحله 3 خوشه (1) و خوشه (2) در فاصله ضریب متوسط درون گروهی 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3و4) و خوشه (5و6) در فاصله ضریب متوسط درون گروهی 125/83 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3و4و5و6) و خوشه (1 و 2) در فاصله ضریب متوسط درون‌گروهی 276/33 با هم ترکیب شده‌اند.

Clustering-tree-diagram4
شکل 10 نمودار درختی با روش ضریب متوسط درون گروهی مثال 2

تحلیل خوشه ای با روش تک اتصالی

در روش خوشه‌بندی تک اتصالی که روش نزدیک‌ترین همجوار هم خوانده می‌شود فاصله بین خوشه‌ها بر اساس ضریب تک اتصالی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

در این روش خوشه‌بندی بر اساس بیشترین شباهت دو عنصر از دو خوشه صورت می‌گیرد. به بیان دیگر دو خوشه هنگامی با هم ترکیب می‌شوند که اندازه شباهت یک عنصر از یک خوشه با یک عنصر از خوشه دیگر از بزرگترین اندازه شباهت بین جفت عنصرهای بین‌خوشه‌ای برخوردار باشد.

به این ترتیب ضریب تک اتصالی با نماد sl(i)(j) در جایی که اندازه شباهت مبتنی بر ضریب شباهت است حداکثر اندازه شباهت جفت عنصر بین خوشه‌ای است:

sl1

و در جایی که اندازه شباهت مبتنی بر ضریب عدم شباهت است حداقل اندازه شباهت جفت عنصر این خوشه‌ای است:

sl2

که در آن re(i)(j) اندازه شباهت جفت عنصر بین خوشه‌ای (i) و(j) است. به عبارت دیگر  re(i)(j)اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است.

در ادامه عناصر مثال 2 را با روش تک اتصالی و بر مبنای ضریب عدم تشابه مجذور فاصله اقلیدسی عناصر خوشه‌بندی می‌کنیم. از این رو مطابق فرمول 11 ضریب تک اتصالی معادل حداقل ضریب عدم تشابه مجذور فاصله اقلیدسی است.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی (جدول 16) مانند ماتریس اندازه شباهت عنصرهاست (جدول 7) چون هر خوشه فقط یک عنصر دارد و ضریب تک اتصالی هر دو خوشه همان اندازه شباهت عنصرهای آن‌هاست.

Similarity-size-matrix10
جدول 16 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله صفر

مرحله یک

در این مرحله با وارسی ماتریس فاصله خوشه‌های مرحله صفر (جدول16) دو خوشه (3) و (4) را که دارای کمترین ضریب تک اتصالی (10) هستند با هم ترکیب می‌کنیم.

حال ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله یک را تشکیل می‌دهیم (جدول17) که در آن ضریب تک اتصالی خوشه جدید (3و4) با بقیه خوشه‌ها کمترین فاصله عنصر 3 و4 با عناصر خوشه‌های دیگر است. به عنوان مثال فاصله عنصر 3 با تک عنصر خوشه (1) معادل 628 و فاصله عنصر 4 با آن معادل 530 است. بنابراین ضریب تک اتصالی خوشه (3و4) با خوشه (1) کمترین آنهاست که 530 است.

Similarity-size-matrix11
جدول 17 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 1

مرحله دو

در این مرحله هم دو خوشه (5) و (6) را که در ماتریس فاصله خوشه‌های مرحله یک دارای کمترین ضریب تک اتصالی (25) هستند با هم ترکیب می‌کنیم. سپس ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله دو را تشکیل می‌دهیم (جدول 18).

Similarity-size-matrix12
جدول 18 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 2

مرحله سه

در این مرحله هم دو خوشه (1) و (2) را که در ماتریس فاصله خوشه‌های مرحله دو دارای کمترین ضریب تک اتصالی (116) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله سه را تشکیل می‌دهیم (جدول 19).

Similarity-size-matrix13
جدول 19 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 3

مرحله چهار

در این مرحله هم دو خوشه (1و2) و (5و6) را که در ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله سه دارای کمترین ضریب تک اتصالی (125) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله چهار را تشکیل می‌دهیم (جدول 20).

Similarity-size-matrix14
جدول 20 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 4

در این مرحله با ترکیب خوشه (1و2و5و6) و خوشه (3و4) که فاصله (ضریب تک اتصالی) آنها در مرحله چهار 136 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد.

نمودار درختی تک اتصالی

شکل 11 نمودار درختی خوشه‌بندی با روش تک اتصالی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 با هم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 نیز خوشه (1و2) و خوشه (5و6) در فاصله 125 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (1و2و5و6) و خوشه (3و4) در فاصله 136 با هم ترکیب شده‌اند.

Clustering-tree-diagram5
شکل 11 نمودار درختی با روش تک اتصالی مثال 2

تحلیل خوشه ای با روش تام اتصالی

در روش خوشه‌بندی تام اتصالی که روش دورترین همجوار هم خوانده می‌شود فاصله خوشه‌ها بر اساس ضریب تام اتصالی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب تام اتصالی دو خوشه هم بزرگ‌ترین اندازه شباهت بین جفت عنصرهای بین خوشه‌ای آنهاست. به بیان دیگر فاصله دو خوشه دورترین فاصله عنصری از یک خوشه با عنصری از خوشه دیگر است.

به این ترتیب ضریب تام اتصالی با نماد cl(i)(j) درجایی که اندازه شباهت مبتنی بر ضریب شباهت است حداقل اندازه شباهت جفت عنصر بین خوشه‌ای است:

cl-formula

و در جایی که اندازه شباهت مبتنی بر ضریب عدم شباهت است حداکثر اندازه شباهت جفت عنصر بین خوشه‌ای است:

cl-max

که در آن re(i)(j) اندازه شباهت جفت عنصر بین خوشه‌ای (i) و (j) است. به بیان دیگر re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است.

در ادامه عناصر مثال 2 را با روش تام اتصالی و بر مبنای ضریب عدم تشابه مجذور فاصله اقلیدسی عناصر خوشه‌بندی می‌کنیم. از این رو مطابق فرمول 13 ضریب تام اتصالی معادل حداکثر مجذور فاصله اقلیدسی است.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی (جدول 21) مانند ماتریس اندازه شباهت عنصرهاست (جدول 6) چه هر خوشه فقط یک عنصر دارد و ضریب تام اتصالی هر دو خوشه همان اندازه شباهت عنصرهای آنهاست.

Similarity-size-matrix15
جدول 21 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله صفر

در این مرحله با وارسی ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله صفر (جدول 21) دو خوشه (3) و (4) را که دارای کمترین ضریب تام اتصالی (10) هستند با هم ترکیب می‌کنیم.

حال ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله یک را تشکیل می دهیم (جدول 22) که در آن ضریب تام اتصالی خوشه جدید (3و4) با بقیه خوشه‌ها بزرگ‌ترین فاصله عنصر 3 و 4 با عناصر خوشه‌های دیگر است. به عنوان مثال فاصله عنصر 3 با تک عنصر خوشه (1) معادل 628 و فاصله عنصر 4 با آن معادل 530 است. بنابراین ضریب تام اتصالی خوشه (3و4) با خوشه (1) بزرگ‌ترین آنهاست که 628 است.

Similarity-size-matrix16
جدول 22 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله 1

مرحله دو

در این مرحله هم دو خوشه (5) و (6) را که در ماتریس فاصله خوشه‌های مرحله یک دارای کمترین فاصله (25) هستند با هم ترکیب می‌کنیم. سپس ماتریس فاصله خوشه‌های مرحله دو را تشکیل می‌دهیم (جدول 23) که در آن ضریب تام اتصالی خوشه جدید (5و6) با بقیه خوشه‌ها بزرگ‌ترین فاصله عنصر 5 و6 با عناصر خوشه‌های دیگر است.

به عنوان مثال فاصله عنصر 5 این خوشه با عنصر 3 خوشه (3 و4) معادل 233 و با عنصر 4 آن معادل 149 است و فاصله عنصر 6 این خوشه با عنصر 3 خوشه (3 و4) معادل 202 و با عنصر 4 آن معادل 136 است. در نتیجه ضریب تام اتصالی خوشه جدید (5 و6) با خوشه (3 و4) معادل 233 است که بزگ‌ترین فاصله بین چهار فاصله میان عناصر آن دو خوشه است.

Similarity-size-matrix17
جدول 23 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله2

مرحله سه

در این مرحله هم دو خوشه (1) و (2) را که در ماتریس فاصله خوشه‌های مرحله دو دارای کمترین فاصله (116) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 24).

Similarity-size-matrix18
جدول 24 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله3

مرحله چهار

در این مرحله دو خوشه (3و4) و (5و6) را که در ماتریس فاصله خوشه‌های مرحله سه دارای کمترین فاصله (233) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌های مرحله چهاررا تشکیل می‌دهیم (جدول 25).

Similarity-size-matrix19
جدول 25 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3و4و5و6) و (1و2) که فاصله آنها 698 است به خوشه نهایی می‌رسیم که تمام عناصر را دربر می‌گیرد.

نمودار درختی تام اتصالی

شکل 12 نمودار درختی خوشه‌بندی با روش تام اتصالی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) وخوشه (4) در فاصله 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 باهم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3 و 4) و خوشه (5 و 6) در فاصله 233 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3 و 4 و 5 و 6) و خوشه (1 و 2) در فاصله 698 با هم ترکیب شده‌اند.

Clustering-tree-diagram6
شکل 12 نمودار درختی با روش تام اتصالی مثال 2

تحلیل خوشه ای به روش وارد

در روش خوشه‌بندی وارد که عنوان اختصاری روش خوشه‌بندی حداقل واریانس وارد است و اتصال وارد هم خوانده می‌شود در هر مرحله خوشه‌بندی فاصله بین خوشه‌ها براساس ضریب وارد احتساب می‌شود که ضریب مجذور انحرافات مقادیر عناصر درون خوشه‌ها از میانگین متغیرهاست. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب وارد با نماد E(i)(j) عبارت است از مجموع مجذور انحراف مقادیر از میانگین متغیر در درون دو خوشه (i) و (j) به اضافه مجموع مجذور انحراف مقادیر از میانگین متغیر در درون تک تک خوشه‌های دیگر:

E-Formula

که در آن Xg مقدار عنصر g ام دو خوشه (i) و (j) در متغیر X است و image086 میانگین متغیر X در آن دو خوشه Xh هم مقدار عنصر h ام خوشه (h) در متغیرX است و image087میانگین متغیر X در خوشه (h).در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هرعنصر یک خوشه به حساب می‌آید.Similarity-size-matrix18

مرحله یک

در این مرحله هربار دو خوشه را در نظر می‌گیریم و ضریب وارد را که مبین فاصله دو خوشه است حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2  معادل 71 است و میانگین سایر خوشه‌ها نیز که تک‌عنصری هستند در هر متغیر معادل مقدار تک عنصر است ضریب وارد دو خوشه (1) و (2) عبارت است از:

E-Formula1

با همین روال ضریب وارد تمام دو خوشه‌های ممکن را حساب می‌کنیم (جدول 26). سپس دو خوشه‌ای که دارای کمترین فاصله (کمترین ضریب وارد) هستند با هم ترکیب می‌شوند. در این مثال با وارسی جدول 26 می‌بینیم ترکیب دو خوشه (3) و (4) از کمترین ضریب وارد برخوردار است. پس این دو خوشه را با هم ترکیب می‌کنیم.

مرحله دو

در این مرحله نیز هربار دو خوشه را در نظر می‌گیریم و ضریب وارد آن دو خوشه را حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2  معادل 71 است و میانگین خوشه (3 و 4) در متغیر X1 معادل 57/5 و در متغیر X2  معادل 52/5 است و میانگین سایر خوشه‌ها نیز که تک‌عنصری هستند در هر متغیر همان مقدار تک عنصر است ضریب وارد ترکیب دو خوشه (1) و (2) عبارت است از:

E-Formula2

با همین روال ضریب وارد ترکیب تمام دو خوشه‌های ممکن را حساب می‌کنیم ( جدول 27). سپس دو خوشه‌ای که دارای کمترین فاصله (کمترین ضریب وارد) هستند با هم ترکیب می‌شوند. در این مثال با وارسی جدول 27 می‌بینیم ترکیب دو خوشه (5) و (6) از کمترین ضریب وارد برخوردار است. بنابراین دو خوشه را با هم ترکیب می‌کنیم.

Similarity-size-matrix19
جدول 27 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 2

مرحله سه
در این مرحله هم باز هر بار دو خوشه را در نظر می‌گیریم و ضریب وارد آن دو خوشه را حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2 معادل 71 است و میانگین خوشه (3 و 4) در متغیر X1 معادل 57/5 و در متغیر X2 معادل 52/5 است و میانگین خوشه (5 و 6) در متغیر X1 معادل 66/5 و در متغیر X2 معادل 62 است ضریب وارد ترکیب دو خوشه (1) و (2) عبارت است از:

E-Formula3

با همین روال ضریب وارد تمام دو خوشه‌های ممکن را حساب می‌کنیم (جدول 28). در این مثال دو خوشه (1) و (2) و همچنین دو خوشه (3 و 4) و (5 و 6) از کمترین ضریب وارد برخوردارند. از این رو یکی از این جفت خوشه‎ها را و معمولا کم عنصر ترین خوشه‌ها را که دو خوشه (1) و (2) هستند با هم ترکیب می‌کنیم.

Similarity-size-matrix20
جدول 28 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 3

مرحله چهار

در این مرحله هم باز هر بار دو خوشه را در نظر می‌گیریم و ضریب وارد دو خوشه را حساب می‌کنیم (جدول 29). در این مثال با وارسی جدول 27 می‌بینیم ترکیب دو خوشه (3 و 4) و (5 و 6) از کمترین ضریب وارد برخوردار است. بنا بر این دو خوشه را با هم ترکیب می‌کنیم.

Similarity-size-matrix21
جدول 29 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3 و 4 و 5 و 6) و (1 و 2) که فاصله (ضریب وارد) آنها 833/690 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد.

نمودار درختی وارد

شکل 13 نمودار درختی خوشه‌بندی با روش وارد مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله5/00 باهم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 17/50 با هم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 75/50 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3 و 4) و خوشه (5 و 6) در فاصله 246/75 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3 و 4 و 5 و 6) و خوشه (1 و 2) در فاصله 690/833 با هم ترکیب شده‌اند.

Clustering-tree-diagram7
شکل 13 نمودار درختی با روش وارد مثال 2

تحلیل خوشه ای کاربرد های متنوعی دارد در این مطلب سعی کردیم تمامی بخش های این مبحث را با مثال های متنوع و متعدد به شما توضیح دهیم. اما چنانچه در مسیر انجام تحلیل خوشه ای دچار مشکل شدید می توانید سوالات خود را در قسمت مشاوره آماری رایگان از افراد با تجربه در این زمینه بپرسید.

چنانچه علاقه مند به مباحث آماری هستید برای با خبر شدن از جدید ترین مطالب آماری می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید. همچنین اگر پروژه شما با پیچیدگی های خاصی همراه است که باید آن را به افراد با تجربه در موضوع تحلیل خوشه ای بسپارید، برای این کار کافیست فرم آماده شده در صفحه ثبت سفارش را کامل کنید تا در اولین فرصت کارشناسان ما با شما تماس بگیرند.

فوریه 11, 2021 1 دیدگاه
0 فیس‌بوکتوییترپینترستایمیل
تحلیل-مسیر
آمار پیشرفته

تحلیل مسیر Path Analysis چیست؟-با مثال هایی ملموس

توسط لادن عباس نیا ژانویه 24, 2021
نوشته شده توسط لادن عباس نیا

[block id=”breadcrumb”]

تحلیل مسیر Path Analysis چیست؟

تحلیل مسیر تکنیکی آماری است که با استفاده از معادلات رگرسیون خطی استاندارد (معادلات رگرسیون خطی بر حسب ضرایب رگرسیون استاندارد) به میزان انطباق یک مدل علی نظری با واقعیت (داده‌ها) می‌پردازد. به عبارت دیگر تحلیل مسیر تکنیکی برای آزمون تجربی مدل علی نظری است. علاوه بر این اگر مدل علی نظری با داده‌های جمعیتی معین انطباق داشته باشد می‌توان انواع اثرات (اثر مستقیم و غیرمستقیم و کاذب و خالص) تک تک متغیرهای مستقل بر متغیر وابسته مدل علی نظری را نیز حساب کرد.

 بهتر است قبل از هز چیزی بهتر است که به مطلب رگرسیون سری بزنید و مفهوم آن را دریافت کنید.

تحلیل مسیر یکی از خدمات تحلیل آماری است که شما می توانید آن را خود انجام دهید یا به یک شرکت آماری بسپارید، اگر وقت لازم را دارید می توانید در این مطلب کامل یک مثال ملمویس را حل کردیم که کامل آموزش ببینید، اما چنانچه وقت کافی ندارید می توانید این خدمت را به عنوان یکی از خدمات تحلیل آماری با تعریف پروژه آماری از بخش خدمات سفارش دهید.

مدل علی نظری Theoretical Causal Model چیست؟

مدل علی نظری مجموعه‌ای از متغیرهای مستقل (علت) و متغیر وابسته (معلول) و روابط بین آنهاست که بر اساس چارچوب نظری و استدلال نظری ساخته می‌شود. تحلیل مسیر مختص آزمون مدل علی نظری است که روابط متغیرها در آن مدل یک‌سویه است. به عبارت دیگر تحلیل مسیر برای آزمون مدلی که متضمن روابط متقابل بین متغیرهاست به کار نمی‌رود.

آزمون مدل علی در تحلیل مسیر مستلزم ترسیم مدل علی به صورت نموداری است به نام نمودار مسیر که متغیرها را بر حسب نظم و ترتیب و توالی علی نظری نشان می‌دهد (مانند شکل1). عنوان نمودار در نمودار مسیر تأکیدی است بر یک‌سویه بودن رابطه متغیرها و از همین روست که تکنیک آماری آزمون مدل علی نظری را تحلیل مسیر می‌خوانند.

تعریف 1: تحلیل مسیر تکنیکی است آماری برای آزمون تجربی مدل علی نظری.

نمودار مسیر Path Diagram چیست؟

در نمودار مسیرمتغیرها بر حسب نظم و ترتیب و توالی علی نظری از چپ به راست قرار می‌گیرند. روابط بین متغیرها و نظم و ترتیب و تقدم و تأخر آنها هم به استدلال نظری متکی است. رابطه علی هر متغیری با متغیر دیگر را یک پیکان نشان می‌دهد که آن دو را به هم وصل می‌کند. پیکان مبین مسیر علی متغیر علت بر متغیر معلول است. متغیر علت در انتهای پیکان قرار می‌گیرد و متغیر معلول در نوک پیکان.

Path-Diagram

به عنوان مثال نمودار مسیر شکل 1 نشان می‌دهد که دو متغیر مستقل X1 و X2 بر متغیر وابسته X3 اثر علی دارند. علاوه بر آن متغیر مستقل X1 بر متغیر X2 نیز اثر علی دارد.

متغیرهای درونزاد Endogenius و برونزاد Exogenous به چه معناست ؟

در نمودار مسیر به متغیر مستقلی که خود متأثر از متغیر یا متغیرهای مستقل دیگر در نمودار مسیر است و در واقع وابسته متغیرهای مستقل دیگر است متغیر درونزاد اطلاق می‌شود. به متغیر مستقلی هم که متأثر از هیچ متغیر مستقلی در نمودار مسیر نیست متغیر برونزاد گفته می‌شود.

متغیر وابسته نمودار مسیر هم‌متغیری است که متأثر از همه متغیرهای مستقل‌هاست اما بر هیچ متغیری اثر ندارد.

تعریف 2: مدل علی نظری عبارت است از یک دسته متغیر مستقل (علت) و یک متغیر وابسته (معلول) و روابط نظری بین آنها.

در نمودار مسیر شکل 1 متغیر مستقل X1 که معلول هیچ متغیر مستقلی در نمودار مسیر نیست متغیر برونزاد است و متغیر مستقل X2 که متأثر از متغیر X1 است متغیر درونزاد به شمار می‌آید و متغیر X3 هم که بر هیچ متغیری اثر ندارد متغیر وابسته است.

تعریف 3: متغیر برونزاد متغیر مستقلی است که متأثر از هیچ متغیر مستقل نمودار مسیر نیست و متغیر درونزاد متغیر مستقلی است که حداقل متأثر از یکی از متغیرهای مستقل نمودار مسیر است.

مفروضات تحلیل مسیر

تحلیل مسیر مبتنی بر مفروضاتی به این شرح است:

  • متغیرها کمی و یا دو وجهی‌اند.
  • روابط متغیرها خطی و جمع پذیر است و شامل روابط منحنی و تعاملی نمی‌شود.
  • جریان علیت در متغیرها یکطرفه است.
  • باقیمانده یک متغیر با باقیمانده‌های سایر متغیرها همبسته نیست.

انجام تحلیل مسیر منوط به تحقق این مفروضات و شرایط است. متغیرهای مستقل باید کمی و یا دووجهی باشند و رابطه متغیرهای کمی با متغیر وابسته نیز خطی باشد. از این متغیرهای مستقل نباید به صورت تعاملی اثر مضاعفی بر متغیر وابسته داشته باشند.

فرض یکطرفه‌بودن جریان علیت در متغیرها نیز بدان معناست که بر اساس استدلال نظری روابط علی بین متغیرها باید یکطرفه باشد و متغیرهایی را که با هم رابطه متقابل دارند نمی‌توان وارد نمودار مسیر کرد و مورد تحلیل قرار داد. فرض آخر نیز بدان معناست که همبستگی باقیمانده هر متغیر با باقیمانده‌های سایر متغیرها باید صفر باشد.

متغیرهای ظاهری را هم نمی‌توان در تحلیل مسیر به کار برد چه آنها طبقات یک متغیرند و از این رو همبستگی بالایی با هم دارند اما این همبستگی‌ها رابطه علی نیست که بتوان وارد تحلیل مسیر کرد.

اجرای آزمون نمودار مسیر به صورت مرحله به مرحله

برای آزمون تجربی یک نمودار مسیر (مدل علی نظری) بعد از گردآوری داده‌ها از جمعیتی معین (یا نمونه‌ای احتمالی از آن) و اطمینان از تحقق مفروضات تحلیل مسیر برای متغیر وابسته و هر یک از متغیرهای درونزاد یک تحلیل رگرسیون خطی انجام می‌دهیم.

چنانچه ضرایب رگرسیون تمام رگرسیون‌های خطی معنادار بود (سطح معناداری آنها مساوی 05/0 یا کمتر بود) و از طرف دیگر همبستگی متغیرهایی که در نمودار مسیر رابطه‌ای با هم ندارند صفر شد نمودار مسیر با واقعیت (داده‌های جمعیتی معین) انطباق دارد. در این صورت مدل علی مورد تحلیل برازنده آن جمعیت معین است. به عبارت دیگر مدل علی برازندگی دارد.

نکته 1: آزمون تجربی نمودار مسیر مستلزم تشکیل یک معادله رگرسیون خطی برای متغیر وابسته و یک معادله رگرسیون خطی برای هر یک از متغیرهای مستقل درونزاد است.

به طور خلاصه آزمون تجربی یک نمودار مسیر مستلزم سه مرحله است:

مرحله 1 وارسی مفروضات

مرحله 2 تحلیل رگرسیون خطی

مرحله 3 نتیجه‌گیری درباره برازندگی مدل

در اینجا برای نشان‌دادن مراحل عملی آزمون یک نمودار مسیر از چند مثال ساده استفاده می‌کنیم.

مثال 1: فرض کنیم محققی بر اساس چارچوب نظری و استدلال نظری مدلی علی به صورت نمودار مسیر شکل 1 ارائه کرده است که نشان می‌دهد دو متغیر مستقل X1 و X2 بر متغیر وابسته X3 اثر علی دارند. همچنین متغیر X1 بر متغیر X2 نیز اثر علی دارد. وی داده‌های مقتضی برای سنجش متغیرهای نمودار مسیر را نیز از نمونه‌ای احتمالی از جمعیتی معین (گیریم ساکنان شهر خوشاب) گردآوری کرده است (جدول1).

برای انجام تحلیل مسیر در گام اول مفروضات آن را وارسی می‌کنیم.

مفروضات-تحلیل-مسیر

مرحله 1 وارسی مفروضات

همانطور که در جدول 1 می‌بینیم هر سه متغیر مستقل X1 و X2 وX3 کمی‌اند (فرض اول).

در شکل 2 نیز می‌بینیم در نمودار پراکنش متغیر وابسته X3 بر حسب متغیر X1 رابطه آنها خطی است. در شکل 3 هم می‌بینیم در نمودار پراکنش متغیر X3 بر حسب متغیر X2 رابطه آنها خطی است. در شکل 4 هم می‌بینیم در نمودار پراکنش متغیر درونزاد X2 با متغیر برونزاد X1 رابطه آنها خطی است (فرض دوم).

جمع‌پذیری روابط را نیز مفروض می‌گیریم. فرض یکطرفه‌بودن جریان علیت در متغیرها نیز مبتنی بر استدلال نظری محقق است (فرض سوم).

در جدول 2 هم می‌بینیم همبستگی E3 که باقیمانده رگرسیون خطی X1 با X2 و X3 است با E2 که باقیمانده رگرسیون خطی X2 با X1 است صفر است (فرض چهارم).

Distribution-chart-x1-to-x3
Distribution-chart-x2-to-x3
Distribution-chart-x1-to-x2

حال با حصول اطمینان از مفروضات تحلیل مسیر در گام دوم به تحلیل‌های رگرسیون خطی مقتضی می‌پردازیم.

مرحله 2 تحلیل‌های رگرسیون خطی

بیشتر بخوانید: رگرسیون خطی ساده چیست؟

تحلیل مسیر مثال 1 مستلزم دو تحلیل (معادله) رگرسیون خطی است: یکی رگرسیون خطی متغیر وابسته X3 با دو متغیر مستقل X1 وX2:

Linear-regression-formula

و دیگری رگرسیون خطی متغیر مستقل درونزاد X2 با متغیر مستقل X2 :

Linear-regression-formula2

تحلیل رگرسیون خطی متغیر وابسته X3 با دو متغیر مستقل X1 وX2 (جدول 3) نشان می‌دهد هر دو متغیر مستقل با متغیر وابسته دارای رابطه معنادار هستند:

Regression-analysis-table

تحلیل رگرسیون خطی متغیر مستقل درونزاد X2 با متغیر مستقل X1 هم نشان می‌دهد آن دو با هم رابطه معنادار دارند (جدول 4):Regression-analysis-table2

بعد از تحلیل‌های رگرسیون خطی مقتضی نمودار مسیر در گام سوم درباره برازندگی نمودار مسیر (مدل علی) نتیجه‌گیری می‌کنیم.

مرحله 3 نتیجه‌گیری درباره  برازندگی مدل

همان‌طور که پیشتر به میان آمد هرگاه ضرایب رگرسیون تمام رگرسیون‌های خطی مقتضی معنادار بود (سطح معناداری آنها مساوی 05/0 یا کمتر بود) و همبستگی متغیرهایی که در نمودار مسیر رابطه‌ای با هم ندارند صفر شد نمودار مسیر با واقعیت (داده‌های جمعیتی معین) انطباق دارد.

درباره نمودار مسیر مثال 1 که ضرایب رگرسیون هر دو رگرسیون‌های خطی مقتضی معنادار بود نتیجه می‌گیریم نمودار مسیر مثال 1 با واقعیت (داده‌های جمعیتی معین) انطباق دارد. این بدان معناست که مدل علی محقق (شکل 1) برازنده آن جمعیت است. به عبارت دیگر نمودار مسیر مثال 1 دارای برازندگی است.

هرگاه نمودار مسیر دارای برازندگی در جمعیت مورد آزمون بود (مانند نمودار مسیر شکل 1) میزان برازندگی آن را مشخص کرده و ضرایب مسیر مدل را وارد نمودار مسیر می‌کنیم.

اما چنانچه ضریب رگرسیون یکی از متغیرهای مستقل در یکی از تحلیل‌های رگرسیون‌های خطی معنادار نبود یا بین متغیرهایی که در نمودار مسیر رابطه‌ای با هم ندارند همبستگی وجود داشت نمودار مسیر با واقعیت انطباق ندارد و فاقد برازندگی در جمعیت مورد آزمون تأیید نمی‌شود.

مثال 2: فرض کنیم محققی بر اساس چارچوب نظری و استدلال نظری یک مدل علی به صورت نمودار مسیر شکل 5 ارائه کرده است که نشان می‌دهد دو متغیر مستقل X1 وX2 بر متغیر وابسته X3 اثر علی دارند و بین متغیر X1 و X2 نیز رابطه‌ای وجود ندارد.

Path-Diagram2

حال اگر همان داده‌های مثال 1 را برای آزمون نمودار مسیر وی به کار ببریم چون بین دو متغیر مستقل X1 وX2 همبستگی وجود دارد (جدول 5) نمودار مسیر مذکور با واقعیت انطباق ندارد و فاقد برازندگی در جمعیت مورد آزمون است. به عبارت دیگر این نمودار مسیر در این آزمون تأیید نمی‌شود.

Correlation3

مثال 3: فرض کنیم محققی بر اساس چارچوب نظری و استدلال نظری یک مدل علی به صورت نمودار مسیر شکل 6 ارائه کرده است که نشان می‌دهد دو متغیر مستقل X1 وX2 بر متغیر وابسته X3 اثر علی دارند. همچنین متغیر X1 هم بر متغیر X2 اثر علی دارد. وی داده‌های مقتضی برای سنجش متغیرهای نمودار مسیر را نیز از نمونه‌ای احتمالی از جمعیتی معین (گیریم ساکنان شهر قشلاق) گردآوری کرده است (جدول 6).

Path-Diagram3
Distribution-table

تحلیل رگرسیون خطی متغیر وابسته X3 با دو متغیر مستقل X1 وX2 (جدول 7) نشان می‌دهد هر دو متغیر مستقل رابطه معناداری با متغیر وابسته دارند. اما تحلیل رگرسیون خطی متغیر مستقل درونزاد X2 با متغیر مستقل X1 نشان می‌دهد بین آن دو رابطه‌ای وجود ندارد (جدول 8).

Regression-analysis-table3

در اینجا نمودار مسیر مذکور با واقعیت انطباق ندارد چون فرض شده بود متغیر X1 بر متغیر X2 اثر علی دارد. بنابراین مدل مذکور فاقد برازندگی در جمعیت مورد آزمون است. به عبارت دیگر نمودار مسیر مثال 3 در این آزمون تأیید نمی‌شود.

شاخص برازندگی مدل علی

در تحلیل مسیر ضریب تعیین (R2)  متغیر وابسته مشخص می‌کند که یک مدل علی نظری دارای برازندگی چقدر با واقعیت (داده‌ها) انطباق دارد. از این رو ضریب تعیین رگرسیون خطی متغیر وابسته با متغیرهای مستقل شاخص برازندگی مدل علی نظری به شمار می‌آید.

ضریب تعیین هم مبین آن است که چه نسبتی از تغییر کل متغیر وابسته ناشی از مجموعه متغیرهای مستقل است. حداکثر مقدار ضریب تعیین یک و حداقل آن صفر است. هر چه مقدار ضریب تعیین به یک نزدیک‌تر باشد برازندگی مدل علی نظری بیشتر است.

در جایی که نمودار مسیر همه متغیرهای مستقل مؤثر در متغیر وابسته را در برگیرد ضریب تعیین به حداکثر مقدار خود (یک) می‌رسد و بدان معناست که همه تغییر متغیر وابسته ناشی از متغیرهای مستقل است و برازندگی مدل علی نظری کامل است. در جایی هم که معادله رگرسیون خطی هیچ یک از متغیرهای مستقل مؤثر بر متغیر وابسته در برنگیرد ضریب تعیین صفر می‌شود که بدان معناست هیچ نسبتی از تغییر متغیر وابسته ناشی از متغیرهای مستقل نیست و مدل علی فاقد برازندگی است.

نمودار مسیر مثال 1 دارای برازندگی بود. بنابراین ضریب تعیین رگرسیون خطی متغیر وابسته آن با متغیرهای مستقل بیانگر میزان برازندگی آن نمودار مسیر است. در این مدل ضریب تعیین رگرسیون خطی متغیر وابسته X1 وX2 حدود 85/0 است (جدول 9) که نشان می‌دهد اگر روابط علی بین متغیرها وجود داشته باشد 85/0 از تغییر متغیر وابسته X3 ناشی از متغیرهای مستقل X1 وX2 است.

model-summary

ضریب مسیر Path Coefficient چه مفهوم و کاربردی دارد؟

ضریب مسیرضریب رگرسیون استاندارد متغیر علت با متغیر معلول در معادله رگرسیون خطی است که نمودار مسیر اقتضا می‌کند و مبین اثر مستقیم متغیر علت بر متغیر معلول است. در جایی که نمودار مسیر دارای برازندگی در جمعیت مورد آزمون بود ضرایب مسیر را وارد نمودار مسیر می‌کنیم (مانند شکل 7).

Path-Coefficient

هر ضریب مسیر را با نماد Pij نشان می‌دهیم. در نماد Pij اندیس i ام مبین متغیر معلول و اندیس j ام مبین متغیر علت است. برای اجتناب از شلوغی نمودار مسیر متغیرها را به ترتیب رابطه علت و معلولی شماره‌گذاری کرده و در اندیس نماد ضریب مسیر نیز فقط شماره متغیرها را به کار می‌بریم.

به عنوان مثال در شکل 7 ضریب مسیر P31 مبین ضریب رگرسیون استاندارد متغیر مستقل X1 با متغیر وابسته X3 است و ضریب مسیر P32 مبین ضریب رگرسیون استاندارد متغیر مستقل X2 با متغیر وابسته X3 .

مقادیر ضرایب مسیر هم از رگرسیون خطی که مدل علی اقتضا می‌کند به دست می‌آید. به عنوان مثال در نمودار مسیر شکل 7 ضرایب مسیر از رگرسیون خطی متغیر X3 با متغیرهای X1 و X2 که نتایج آن در جدول 3 آمده است و رگرسیون خطی متغیر X2 با متغیر X1 که نتایج آن در جدول 4 ارائه شده است به دست می‌آید.

طبق جدول 3 ضریب رگرسیون استاندارد X1 با X3 معادل 475/0 است. پس در نمودار مسیر شکل 4 مقدار ضریب مسیر P31 را 475/0 درج می‌کنیم. همینطور مقدار ضریب رگرسیون استاندارد X2 با X3 را که 504/0 است برای ضریب مسیر P32 می‌نویسیم. مقدار ضریب مسیر P21 هم مقدار ضریب رگرسیون استاندارد متغیر مستقل X1 با متغیر مستقل درونزاد X2 است که مطابق جدول 4 معادل 764/0 است.

تعریف 4: ضریب مسیر ضریب رگرسیون استاندارد متغیر علت با متغیر معلول در معادله رگرسیون خطی نمودار مسیر است.

ضریب مسیر باقیماندهResidual Path Coefficient چیست؟

ضریب مسیر باقیمانده  ضریب مسیر عوامل ناشناخته است. عوامل ناشناخته هم متغیرهایی هستند که مدل علی آنها را در بر نگرفته است. ترسیم آنها در نمودار برای نشان‌ دادن سهم عوامل ناشناخته در متغیر معلول یا نسبتی از تغییر متغیر معلول است که در مدل علی تبیین نشده باقی مانده است. عوامل ناشناخته متغیر معلول Xj را با نماد ej و ضریب مسیر آن را با نماد Pje نشان می‌دهیم. به عنوان مثال در شکل 7 باقیمانده متغیر X3 با نماد 3e نشان داده شده است و ضریب مسیر آن با نمادPe3.

ضریب مسیر باقیمانده متغیر معلول Xj با نماد Pje عبارت است از جذر نسبت تغییر متغیر معلول که در نمودار مسیر تبیین نشده باقیمانده است:

formula1

که در آن Rj ضریب تعیین مقدار معلول Xj است.

به عنوان مثال ضریب مسیر باقیمانده متغیر X3 در نمودار مسیر شکل 7 با توجه به این که مقدار ضریب تعیین رگرسیون X3 با دو متغیر مستقل X1 و X2 معادل 846/0 است (جدول 9) عبارت است از:

formoul3

و ضریب مسیر باقیمانده متغیر X2 با توجه به این که مقدار ضریب تعیین رگرسیون آن متغیر با متغیر X1 معادل 584/0 است (جدول 10) عبارت است از:

formoul4
model-summary

اثرات متغیرهای مستقل کدامند؟

در مدل علی نظری دارای برازندگی که مدلی است که با داده‌های جمعیتی معین انطباق دارد می‌توان اثرات مختلف تک تک متغیرهای مستقل بر متغیر وابسته را نیز مشخص کرد: اثر مرتبه صفر و اثر مستقیم و اثر غیرمستقیم و اثر کاذب و اثر خالص.

اثر مرتبه صفر Zero-Order Effect

اثر مرتبه صفریک متغیر مستقل بر متغیر وابسته همبستگی آن دو متغیر بدون به حساب آوردن سایر متغیرهای نمودار مسیر است. به عبارت دیگر اثر مرتبه صفر متغیر مستقل بر متغیر وابسته همان همبستگی آن دو متغیر است.

تعریف 5: ضریب مسیر باقیمانده ضریب مسیر متغیرهای ناشناخته است که در مدل علی قرار ندارند.

در تحلیل مسیر اثر مرتبه صفر یک متغیر مستقل بر متغیر وابسته به سه اثر جداگانه تقسیم می‌شود: اثر مستقیم و اثر غیرمستقیم و اثر کاذب. به عبارت دیگر اثر مرتبه صفر یک متغیر مستقل بر متغیر وابسته با نماد rij عبارت است از مجموع سه اثر مذکور:

formoul5

که درآن pij اثر مستقیم متغیر مستقل Xj بر متغیر وابسته Xi و irij اثرغیرمستقیم و srij اثر کاذب آن.

نکته 2: اثر مرتبه صفر یک متغیر مستقل بر متغیر وابسته همبستگی آن دو متغیر است که در نمودار مسیر به سه اثر مستقیم و غیرمستقیم و کاذب تجزیه می‌شود.

نمودار مسیر اثر مستقیم چیست؟

در نمودار مسیر اثر مستقیم یک متغیر اثر بلافصل و بی‌واسطه آن متغیر بر متغیر دیگری است که با پیکان نشان داده می‌شود و مقدار آن همان ضریب مسیر دو متغیر است. به عبارت دیگر ضریب مسیر pij مبین اثر مستقیم متغیرjام بر متغیر iام است.

تعریف 6: اثر مستقیم یک متغیر مستقل اثر بی‌واسطه آن بر متغیر وابسته است که همان ضریب مسیر دو متغیر است.

به عنوان مثال در نمودار مسیر شکل 7 ضریب مسیر P31 که معادل 475/0 است اثر مستقیم متغیر مستقل X1 بر متغیر وابسته X3 است و ضریب مسیر P32 که معادل 504/0 است اثر مستقیم متغیر مستقل X2 بر متغیر وابسته X3 است. همچنین ضریب مسیرP21 که معادل 764/0 است اثر مستقیم متغیر برونزاد X1 بر متغیر مستقل درونزاد X2 است.

نمودار مسیر اثر غیر مستقیم چه کاربردی دارد؟

در نمودار مسیر اثر غیرمستقیم تأثیر متغیری بر متغیری دیگر از طریق متغیر یا متغیرهای رابط است. متغیر رابط هم متغیری است که هم متأثر از متغیر علت است و هم مؤثر بر متغیر معلول. مقدار اثر غیرمستقیم از ضرب کردن ضرایب مسیری که در آن مسیر غیرمستقیم قرار دارند به دست می‌آید.

به عنوان مثال در شکل 7 متغیر مستقل X1 از طریق متغیر مستقل X2 بر متغیر وابسته X3 اثر غیرمستقیم دارد. مقدار این اثر غیرمستقیم عبارت است از حاصل ضرب ضریب مسیر P21 در ضریب مسیرP32:

formoul-p32

اما متغیر مستقل X2 بر متغیر وابسته X3 اثر غیرمستقیم ندارد. به عبارت دیگر اثر غیرمستقیم متغیر مستقل X2 بر متغیر وابسته X3 صفر است.

تعریف 7: اثر غیرمستقیم یک متغیر مستقل اثر آن بر متغیر وابسته از طریق متغیر یا متغیرهای رابطی است که بین آن دو قرار دارند.

اثر کاذب در نمودار مسیر چه کاربردی دارد؟

در نمودار مسیر اثر کاذب یک متغیر مستقل بخشی از اثر آن متغیر بر متغیر وابسته است که ناشی از تأثیر متغیر یا متغیرهای دیگر مدل بر هردو متغیر است.

به عنوان مثال در نمودار مسیر شکل 7 اثر کاذب متغیر مستقل X2 بر متغیر وابسته X3 بخشی از اثر متغیر مستقل X2 بر متغیر وابسته X3 است که ناشی از اثر متغیر مستقل X1 است چه هر دو متغیر X2 وX3 متأثر از آن متغیرند.

اما متغیر مستقل X1 اثر کاذبی بر متغیر وابسته X3 ندارد چه در آن نمودار مسیر هیچ متغیری وجود ندارد که هر دو متغیر متأثر از آن باشند. یک متغیر مستقل برونزاد فاقد اثر کاذب است زیرا طبق تعریف متغیر مستقل برونزاد در یک نمودار مسیر متغیری است که هیچ متغیری بر آن تأثیر ندارد.

تعریف 8: اثر کاذب یک متغیر بخشی از اثر یک متغیر علت بر متغیر معلول است که ناشی از تأثیر متغیر یا متغیرهای دیگر مدل بر هر دو متغیر است.

اثر کاذب متغیر مستقل بر متغیر وابسته از تجزیه اثر مرتبه صفر به سه اثر مستقیم و غیرمستقیم و کاذب به دست می‌آید:

formoul-pr

که درآن rij اثر مرتبه صفر متغیر مستقل Xj بر متغیر وابسته Xi است وpij ضریب مسیر متغیر مستقل Xj با متغیر وابسته Xi و pik ضریب مسیر متغیر وابسته Xi با متغیر مستقلی است که اثر مستقیمی بر متغیر مستقل Xj دارد و rjk همبستگی متغیر مستقل Xj با متغیر مستقلی است که اثر مستقیمی بر آن دارد.

به عنوان مثال در نمودار مسیر شکل 7 برای احتساب اثر کاذب متغیر مستقل X2 بر متغیر وابسته X3 همبستگی مرتبه صفر آن دو متغیر را با توجه به ضرایب مسیر مقتضی در نمودار مسیر و همبستگی متغیرهای مدل (جدول 11) با فرمول 3 تجزیه می‌کنیم:

formoul-pr-px

در این مثال اثر مستقیم X2 بر X3 (که همان ضریب مسیر آن دو متغیر است) 0/504 و اثر غیرمستقیم آن صفر است. بنابراین اثر کاذب X2 بر X3 معادل 0/363 است.

table12

اثر کاذب متغیر مستقل بر متغیر وابسته را می‌توان به صورت ساده هم به دست آورد. از آنجا که همبستگی مرتبه صفر دو متغیر مجموع اثر مستقیم و اثر غیرمستقیم و اثر کاذب متغیر مستقل بر متغیر وابسته است (فرمول 3) در نتیجه اثر کاذب متغیر مستقل بر متغیر وابسته با نماد srij عبارت است از:

formoul-sr

که در آن rij اثر مرتبه صفر متغیر مستقل Xj بر متغیر وابسته Xi است و pij اثر مستقیم متغیر Xj بر متغیر وابسته Xi و irij اثر غیرمستقیم Xj بر Xi.

به عنوان مثال در نمودار مسیر شکل 7 که اثر مرتبه صفر متغیر مستقل X2 بر متغیر وابسته X3 معادل 0/637 (جدول 12) و اثر مستقیم X2 برX3 (که همان ضریب مسیر آن دو است) 0/504 است و متغیر مستقل X2 بر متغیر وابسته X3 اثر غیرمستقیمی ندارد (اثر غیرمستقیم X2 برX3 صفر است) اثر کاذب X2 بر X3  عبارت است از:

formoul-sr21

که معادل همان مقداری است که با فرمول 3 به دست آمد.

table12

نکته 3: در نمودار مسیر متغیر مستقل برونزاد بر هیچ متغیری اثر کاذب ندارد.

نکته 4: در نمودار مسیر متغیر مستقل درونزاد بر متغیر وابسته اثر کاذب دارد.

اثر خالص در نمودار مسیر چه کاربردی دارد؟

در نمودار مسیر اثر خالص متغیر مستقل Xj بر متغیر وابسته Xi (با نماد prij ) همبستگی دو متغیر بعد از حذف (کنترل) اثر متغیرهای مستقل مؤثر بر متغیر مستقل Xj از آن متغیر مستقل است.

احتساب اثر خالص متغیر مستقل به روابط بین متغیرهای مستقل نمودار مسیر بستگی دارد. برای احتساب اثر خالص متغیر مستقل Xj بر متغیر وابسته Xi از متغیر مستقل Xj به عنوان متغیر وابسته با متغیرهای مستقل دیگر که بر اساس نمودار مسیر بر آن متغیر مستقل مؤثرند رگرسیون خطی می‌گیریم و باقیمانده‌های آن را به صورت یک متغیر در نظرگرفته و بین آن متغیر باقیمانده و متغیر وابسته Xi همبستگی دو متغیره می‌گیریم.

تعریف 9: اثر خالص یک متغیر مستقل عبارت است از اثر آن بر متغیر وابسته بعد از برداشتن اثر سایر متغیرهای مؤثر برآن.

در واقع اثر خالص متغیر مستقل Xj بر متغیر وابسته Xi همان همبستگی نیمه جزیی دو متغیر است. از این رو اثر خالص متغیر مستقل Xj بر متغیر وابسته Xi را می‌توان با فرمان همبستگی جزیی و نیمه جزیی در رگرسیون خطی متغیر وابسته Xi با متغیر مستقل Xj و متغیرهای مستقل مؤثر بر متغیر مستقل Xj به دست آورد.

به عنوان مثال در نمودار مسیر شکل 7 اثر خالص متغیر مستقل X2 بر متغیر وابسته X3 اثر متغیر X2 بعد از برداشتن اثر متغیر مستقل X1 از روی آن است که همان همبستگی نیمه جزیی دو متغیرX2 و X3 با کنترل متغیر X1 است. همان‌طور که در جدول 12 آمده است این همبستگی نیمه جزیی 0/325 است. این بدان معناست که در نمودار مسیر مثال 1 (شکل7) اثر خالص متغیر مستقل X2 بر متغیر وابسته X2 معادل 0/325 است.

در نمودار مسیر اثر خالص متغیر مستقل برونزاد بر متغیر وابسته همان همبستگی مرتبه صفر آن است چه متغیر مستقل برونزاد در یک نمودار مسیر متغیری است که هیچ متغیری بر آن تأثیر ندارد. به عنوان مثال در نمودار مسیر شکل 7 اثر خالص متغیر مستقل برونزاد X1 بر متغیر وابسته X3 همان همبستگی مرتبه صفر آن است که معادل 0/860 است (جدول 12).

کاربرد مجذور اثر خالص در نمودار مسیر چیست ؟

در نمودار مسیر مجذور اثر خالص یک متغیر مستقل نسبتی از تغییر متغیر وابسته است که آن متغیر مستقل به تنهایی تبیین می‌کند و اگر قائل به رابطه علی بین آن دو باشیم نسبتی از تغییر متغیر وابسته است که ناشی از آن متغیر مستقل است.

مجموع مجذور اثر خالص متغیرهای مستقل هم نسبتی از تغییر متغیر وابسته است که مجموعه متغیرهای مستقل نمودار مسیر تبیین می‌کند. از این رو مجموع مجذور اثر خالص متغیرهای مستقل معادل ضریب تعیین (R2 ) نمودار مسیر است که مبین نسبتی از تغییر متغیر وابسته است که مجموعه متغیرهای مستقل تبیین می‌کند:

formoul-R2

که در آن prij اثر خالص متغیر مستقل Xj بر متغیر وابسته Xi است.

به عنوان مثال در نمودار مسیر شکل 7 که اثر خالص متغیر مستقل X2 بر متغیر وابسته X3 معادل 0/325 و اثر خالص متغیر مستقل X1 معادل 0/860 است ضریب تعیین عبارت است از:

formoul-R2-ex

که معادل مقدار ضریب تعیین رگرسیون خطی متغیر X3 با متغیرهای X1 و X2 است (جدول 9).

کاربرد اثرات متغیرهای مستقل در تحلیل مسیر

در تحلیل مسیر تعیین اثرات مختلف تک تک متغیرهای مستقل اساساً برای مقایسه تأثیر متغیرهای مستقل بر متغیر وابسته از جوانب گوناگون است. با مقایسه اثرات مستقیم معلوم می‌شود کدام متغیر مستقل بیشترین یا کمترین اثر مستقیم را بر متغیر وابسته دارد. یا با مقایسه اثرات غیرمستقیم مشخص می‌شود کدام متغیر مستقل بیشترین یا کمترین اثر غیرمستقیم را بر متغیر وابسته دارد. یا کدام متغیر مستقل بیشترین یا کمترین اثر کاذب را دارد.

اما از همه مهمتر مقایسه اثرات خالص است که نشان می‌دهد هر متغیر مستقل نمودار مسیر چه نقشی در متغیر وابسته دارد. به ویژه مجذور اثرات خالص حائز اهمیت است که نشان می‌دهد هر متغیر مستقلی چه نسبتی از تغییر وابسته را تبیین می‌کند.

برای تسهیل مقایسه اثرات مختلف یک متغیر مستقل و مقایسه اثرات مختلف متغیرهای مستقل همه اثرات مختلف متغیرهای مستقل یک نمودار مسیر را در جدولی تحت عنوان ماتریس اثرات ارائه می‌کنیم.

ماتریس اثرات چیست؟

ماتریس اثراتجدولی است شامل تمام اثرات متغیرهای مستقل یک نمودار مسیر (مانند جدول 13) که برای مقایسه اثرات مختلف متغیرهای نمودار مسیر به کار می‌رود.

در ستون اول ماتریس اثرات نام متغیرهای مستقل نمودار مسیر درج می‌شود. ستون دوم به همبستگی متغیرهای مستقل با متغیر وابسته اختصاص دارد که همان اثر مرتبه صفر متغیرهای مستقل است و از سه جزء (اثر مستقیم و اثرغیرمستقیم و اثر کاذب) تشکیل شده است. اثر مستقیم در ستون سوم می‌آید که اثر بلافصل متغیر مستقل بر متغیر وابسته است. اثر غیرمستقیم که اثر متغیر مستقل بر متغیر وابسته از طریق متغیر یا متغیرهای دیگر است در ستون چهارم می‌آید. اثر کاذب هم که بخشی از اثر متغیرمستقل بر متغیر وابسته است که ناشی از تأثیر متغیر یا متغیرهای دیگر مدل بر هر دو متغیر است در ستون بعدی می‌آید.

ستون ششم ماتریس اثرات به اثر خالص متغیرهای مستقل بر متغیر وابسته اختصاص دارد که همبستگی هر متغیر مستقل با متغیر وابسته بعد از برداشتن اثر متغیرهای مستقل مؤثر بر آن متغیر مستقل از روی آن متغیر مستقل است. ستون آخر هم مجذور اثر خالص متغیرهای مستقل است که مبین نسبتی از تغییر متغیر وابسته است که هر یک از متغیرهای مستقل تبیین می‌کند.

با تهیه ماتریس اثرات با سهولت می‌توان به ارزیابی و مقایسه اثرات مختلف متغیرهای مستقل پرداخت. به عنوان مثال در ماتریس اثرات نمودار مسیر شکل 7 (جدول 13) می‌بینیم همبستگی مرتبه صفر و اثر مستقیم متغیر مستقل X2 اندکی بیشتر از متغیر مستقل X1 است. اما متغیر مستقل X1 اثر غیرمستقیمی بر متغیر وابسته دارد در حالی که متغیر مستقل X2 اثر غیرمستقیم ندارد. در عوض X2 دارای اثر کاذب بر متغیر وابسته است در حالی که متغیر مستقل X1 اثر کاذب ندارد.

مقایسه اثرات خالص نشان می‌دهد اثر خالص متغیر مستقل X1 بر متغیر وابسته به مراتب بیشتر از اثر خالص متغیر مستقل X2 است. مجذور اثر خالص متغیر مستقل X1 بر متغیر وابسته که 0/740 است حدود هفت برابر مجذور اثر خالص متغیر مستقل X2 است که فقط 0/106 است. این بدان معناست که سهم متغیر مستقل X1 در تبیین متغیر وابسته حدود هفت برابر سهم متغیر مستقل X2 است.

table13

مثال 4: در این مثال تمام مراحل یک تحلیل مسیر 4 متغیره را انجام می‌دهیم. فرض کنیم محققی بر اساس چارچوبی نظری استدلال می‌کند سه متغیر جنسیت و تحصیلات و سمت اداری سه عامل عمده درآمد کارکنان حقوق‌بگیر است.

Path-chart

استدلال وی به طور خلاصه به این شرح است: در جوامع معاصر عموماً جایگاه مردان بالاتر از زنان است و از این رو به طور متوسط درآمد مردان از زنان بیشتر است. تحصیلات هم بیانگر تخصص است و تقسیم کار در جوامع معاصر هم مبتنی بر تخصص است. بنابراین درآمد رابطه مستقیمی با تحصیلات دارد: هر چه تحصیلات بیشتر درآمد بیشتر. سمت اداری هم جایگاهی در سلسله مراتب اداری است و طبعاً رابطه مستقیمی با درآمد دارد (هر چه سمت اداری بالاتر درآمد بیشتر).

همچنین سمت‌های اداری به همان دلیل بالا بودن جایگاه مردان و اهمیت تخصص عموماً به مردان و افراد دارای تحصیلات بالاتر اختصاص می‌یابد. به عبارت دیگر جنسیت و تحصیلات بر سمت اداری تأثیر دارد. و باز به دلیل بالا بودن جایگاه مردان به طور متوسط تحصیلات مردان بالاتر است. به عبارت دیگر جنسیت بر تحصیلات هم تأثیر دارند. مجموعه این روابط بین چهار متغیر به صورت نمودار مسیر شکل 8 ترسیم شده است.

گیریم داده‌های مقتضی برای سنجش متغیرهای نمودار مسیر شکل 8 و آزمون مدل را از نمونه‌ای احتمالی از جمعیتی معین (کارکنان شرکت بزرگ الف) گرد آورده‌ایم (جدول 14). جنسیت (X1) متغیری دوشقی و به صورت صفر و 1 کدگذاری شده (صفر برای زن و 1 برای مرد) و تحصیلات (X2) متغیری کمی بر حسب سال و سمت اداری (X3) از پایین‌ترین تا بالاترین سطح به صورت متغیری کمی از صفر تا 4 و درآمد ماهانه (X3) متغیری کمی بر حسب هزار تومان اندازه‌گیری و وارد فایل SPSS شده است.

table14

حال برای تحلیل مسیر مدل مذکور در مرحله اول به وارسی مفروضات می‌پردازیم. همان‌طور که به میان آمد جنسیت (X1) متغیری دوشقی و تحصیلات(X2)  و سمت اداری (X3) هم به صورت متغیری کمی اندازه‌گیری شده‌اند (فرض اول). در شکل 9 الی 11 نیز می‌بینیم روابط متغیرهای معلول با متغیرهای علت خطی است (فرض دوم) و جمع‌پذیری روابط را نیز مفروض می‌گیریم.

X4-X2-distribution-diagram

شکل 9 نمودار پراکنش X4 بر حسب X2 مثال 4

X4-X3-distribution-diagram

شکل 10 نمودار پراکنش X4 بر حسب X3 مثال 4

فرض یکطرفه‌بودن جریان علت در متغیرها نیز مبتنی بر استدلال نظری محقق است (فرض سوم) و همان‌طور که در جدول 15 می‌بینیم همبستگی E4 (باقیمانده X4 ) با E3 (باقیمانده X3 ) و با E2 (باقیمانده X2 ) و همبستگی E3 با E2 همگی صفرند (فرض چهارم).

Correlation-E4-E3-E2

حال با حصول اطمینان از مفروضات تحلیل مسیر در مرحله دوم به تحلیل رگرسیون خطی مقتضی می‌پردازیم.

تحلیل مسیر مثال 4 مستلزم سه معادله رگرسیون خطی است. اول رگرسیون خطی متغیر وابسته X4 با سه متغیر X1 و X2 و X3 :

formoul-x2

دوم رگرسیون خطی متغیر مستقل درونزاد X3 با متغیر مستقل X1 و X2 :

formoul-x3

سوم رگرسیون خطی متغیر مستقل درونزاد X2 با متغیر مستقل X1 :

formoul-x1

تحلیل رگرسیون خطی متغیر وابسته درآمد ماهانه (X4) با سه متغیر مستقل جنسیت (X1) و تحصیلات (X2) و سمت اداری (X3) نشان می‌دهد هر سه متغیر مستقل دارای رابطه معناداری با متغیر وابسته‌اند. (جدول 16).

16Correlation-coefficients

تحلیل رگرسیون خطی متغیردرونزاد سمت اداری (X3) با دو متغیر مستقل جنسیت (X1) و تحصیلات (X2) نیز نشان می‌دهد هر دو متغیر مستقل رابطه معناداری با آن متغیر دارند (جدول 17).17Correlation-coefficients

همچنین تحلیل رگرسیون خطی متغیر درونزاد تحصیلات (X2) با متغیر مستقل جنسیت (X1) نشان می‌دهد متغیر مستقل جنسیت رابطه معناداری با آن متغیر دارد (جدول 18).

18Correlation-coefficients

تأیید همه مفروضات نمودار مسیر شکل 8 مبین برازندگی مدل در آن جمعیت (انطباق مدل با واقعیت) است (مرحله سوم).

شاخص این برازندگی هم ضریب تعیین رگرسیون خطی متغیر وابسته با متغیرهای مستقل نمودار مسیر است. همان‌طور که در جدول 19 می‌بینیم مقدار ضریب تعیین تعدیل‌یاقته آن مدل حدود 0/89 است. این بدان معناست اگر همان‌طور که محقق استدلال کرده بین متغیرها روابط علی وجود داشته باشد 0/89 از تغییر متغیر وابسته درآمد ماهانه (X4) کارکنان شرکت بزرگ الف ناشی از سه متغیر مستقل جنسیت (X1) و تحصیلات (X2) و سمت اداری (X3) آنهاست.

از آنجایی که نمودار مسیر شکل 8 دارای برازندگی در جمعیت مورد آزمون است ضرایب مسیر متغیرها را از روی تحلیل رگرسیون مقتضی (جدول 16 الی 18) و ضرایب مسیر باقیمانده‌ها را از روی ضریب تعیین‌های مقتضی (جدول 19 الی 21) احتساب کرده و وارد نمودار مسیر می‌کنیم (شکل 12).

model-summary19
Path-charts-and-coefficients

حال برای ارزیابی و مقایسه اثرات مختلف متغیرهای مستقل ماتریس اثرات نمودار مسیر شکل 12 را تشکیل می‌دهیم (جدول 22). همبستگی مرتبه صفر متغیرهای مستقل با متغیر وابسته را از جدول ضرایب رگرسیون خطی X4 با X1 و X2 و X3 (جدول 24) و اثر مستقیم متغیرهای مستقل بر متغیر وابسته را نیز از ضرایب مسیر شکل 12 استخراج می‌کنیم.

اثر غیرمستقیم متغیر مستقل جنسیت (X1) بر متغیر وابسته درآمد ماهانه (X4) شامل اثر X1 از طریق متغیر X2 به X4 و از طریق X3 به X4 و همچنین از طریق X2 به X3 به X4 است. اثر غیرمستقیم متغیر مستقل تحصیلات (X2) بر متغیر وابسته درآمد ماهانه (X4) شامل اثر X2 از طریق X3 به X4 است. متغیر مستقل سمت اداری (X3) هم اثر غیرمستقیمی برمتغیر وابسته (X4) ندارد.

جنسیت (X1) که متغیر مستقل برونزاد است بر متغیر وابسته درآمد ماهانه (X4) اثر کاذب ندارد. اما متغیر مستقل درونزاد تحصیلات (X2) بر متغیر وابسته درآمد ماهانه (X4) اثر کاذب دارد که ناشی از تأثیر متغیر جنسیت (X1) بر هر دو متغیر است. این اثر کاذب طبق فرمول 4 از کم کردن مقدار اثر مستقیم و غیرمستقیم X2 از همبستگی مرتبه صفر آن با متغیر وابسته درآمد ماهانه (X4) به دست می‌آید:

formoul-sr

متغیر مستقل درونزاد سمت اداری (X3) هم بر متغیر وابسته درآمد ماهانه (X4) اثر کاذب دارد که ناشی از تأثیر متغیر جنسیت (X1) و تحصیلات (X2) بر هر دو متغیر است. این اثر کاذب هم از کم کردن مقدار اثر مستقیم و غیرمستقیم X3 از همبستگی مرتبه صفر آن با متغیر وابسته درآمد ماهانه (X4) احتساب می‌شود:

2formoul-sr

اثر خالص متغیر مستقل جنسیت برونزاد (X1) برمتغیر وابسته درآمد ماهانه (X4) معادل همبستگی مرتبه صفر آن است. اثر خالص متغیر مستقل درونزاد تحصیلات (X2) بر متغیر وابسته درآمد ماهانه (X4) همبستگی نیمه جزیی آن دو با حذف اثر X1 بر X2 است. این همبستگی با فرمان همبستگی جزیی و نیمه جزیی در رگرسیون خطی متغیر وابسته X4 با دو متغیر مستقل X1 و X2 به دست می‌ آید (جدول 23) که معادل 0/475 است.

اثر خالص متغیر مستقل درونزاد سمت اداری (X3) بر متغیر وابسته درآمد ماهانه (X4) همبستگی نیمه جزیی آن دو با حذف اثر X1 و X2 برX3 است. این همبستگی با فرمان همبستگی جزیی و نیمه جزیی در رگرسیون خطی متغیر وابسته X4 با سه متغیر مستقل X1 و X2 وX3 به دست می‌آید. (جدول 24) که معادل 0/312 است.

حال در ارزیابی و مقایسه اثرات مختلف متغیرهای مستقل (جدول 22) می‌بینیم همبستگی مرتبه صفر و اثر مستقیم متغیر مستقل سمت اداری (X3) بیشتر از متغیر مستقل جنسیت (X1) و تحصیلات (X2) است. در عوض متغیر مستقل جنسیت (X1) دارای بالاترین اثر غیرمستقیم بر متغیر وابسته است و اثر غیرمستقیم تحصیلات (X2) در مرتبه بعدی قرار دارد و متغیر مستقل سمت اداری (X3) اثر غیرمستقیم ندارد.

همچنین سمت اداری (X3) دارای بالاترین اثر کاذب بر متغیر وابسته درآمد ماهانه (X4) است. اثر کاذب تحصیلات (X2) در مرتبه بعدی قرار دارد و متغیر مستقل جنسیت (X1) اثر کاذبی ندارد.

table14
Table-of-linear-regression-coefficients

از همین رو اثر خالص متغیر مستقل جنسیت (X1) بر متغیر وابسته درآمد ماهانه (X4) به مراتب بیشتر از اثر خالص متغیر تحصیلات (X2) و به ویژه سمت اداری (X3) است. مجذور اثر خالص متغیر X1 بر متغیر وابسته X4 که 0/565 است حدود 2/5 برابر مجذور اثر خالص متغیرX2 است که فقط 0/227 است و حدود 6 برابر مجذور اثر خالص متغیر X3 است که فقط 0/097 است. این بدان معناست که سهم جنسیت در تبیین تغییر درآمد ماهانه حدود 2/5 برابر سهم تحصیلات و 6 برابر سهم سمت اداری است.

در این مطلب سعی کردیم با مثال های کاربردی مفهوم تحلیل مسیر و کاربرد های مهم آن را برای شما شرح دهیم. امیدواریم که از این مطلب به خوبی استفاده کنید. چنانچه درباره تحلیل مسیر سوالی داشتید در زیر این پست کامن بگذارید تا کارشناسان سایت به شما پاسخ دهند. چنانچه سوالی با توجه به پروژه مخصوص خود دارید می توانید باتکمیل فرم در قسمت مشاوره آماری رایگان با افراد متخصص و با تجربه ارتباط برقرار نمایید.

همچنین اگر علاقه مند به مباحث آماری هستید برای با خبر شدن از جدید ترین مطالبی که بر روی سایت آمار پیشرو قرار می گیرد، می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید. اگر نیاز به انجام پروژه های اماری دارید و چنانچه خیلی نمی خواهید وقت خود را از دست دهید، با رفتن به بخش ثبت سفارش فرم را تکمیل کرده تا کارشناسان در سریعترین زمان ممکن با شما تماس بگیرند و پروژه شما را آغاز کنند.

ژانویه 24, 2021 7 نظرات
0 فیس‌بوکتوییترپینترستایمیل
MANOVA
آمار پیشرفته

مانوا یا تحلیل واریانس چند متغیره (MANOVA) درSPSS

توسط لادن عباس نیا اکتبر 13, 2020
نوشته شده توسط لادن عباس نیا

[block id=”breadcrumb”]

تحلیل واریانس چندمتغیره مانوا (MANOVA) در زمره روش‌های تحلیل واریانس قرار دارد.در این مقاله ابتدا مفهوم تحلیل واریانس مانوا را بررسی کرده و سپس با مثالی ملموس تحلیل واریانس چند متغیره  در SPSS اجرا کردیم.

تحلیل واریانس چند متغیره یا مانوا(MANOVA) چیست؟

به عنوان مثالی از تحلیل واریانس چندمتغیره، فرض کنید می‌خواهیم تأثیر سطح فعالیت بدنی را بر کاهش وزن و کاهش فشار خون افراد بررسی کنیم. در این حالت، فعالیت بدنی که در سه سطح کم، متوسط و زیاد سنجیده می‌شود به عنوان عامل (متغیر مستقل) است و متغیرهای کاهش وزن و کاهش فشار خون به عنوان متغیرهای وابسته هستند. چون در این مثال بیش از یک متغیر وابسته وجود دارد، باید از تحلیل واریانس چندمتغیره استفاده کنیم.

چنان‌چه تنها یک متغیر وابسته وجود داشت (مثلاً فقط کاهش وزن) آن گاه باید از تحلیل واریانس یک‌طرفه برای بررسی اثر فعالیت بدنی بر آن استفاده می‌کردیم. هم‌چنین اگر فقط یک متغیر وابسته و دو متغیر مستقل وجود داشته باشد، آن‌گاه باید از تحلیل واریانس دوطرفه بهره گرفت. مثلاً فرض کنید اگر در همین مثال قصد داشتیم اثر سطح فعالیت بدنی و گروه خونی را بر کاهش وزن افراد بررسی کنیم، آن گاه تحلیل واریانس دوطرفه گزینه مناسبی بود.

تحلیل واریانس چندمتغیره یک‌طرفه (مانوای یک‌طرفه) برای تعیین این امر استفاده می‌شود که آیا تفاوتی بین گروه‌های یک متغیر مستقل در بیش از یک متغیر وابسته پیوسته وجود دارد یا خیر. هم چنین اگر بخواهیم اثر دو متغیر مستقل را بر بیش از یک متغیر وابسته بسنجیم، آن گاه باید از مانوای دوطرفه استفاده کنیم.حتی می توانید تحلیل کواریانس چند متغیره هم ببینید.

به عنوان مثال، از مانوای یک‌طرفه برای بررسی وجود تفاوت در حافظه کوتاه‌مدت و بلندمدت دانش‌آموزان بر اساس سخنرانی‌هایی با چهار مدت زمان متفاوت می‌توان استفاده کرد. در این مثال، دو متغیر وابسته عبارتند از حافظه کوتاه‌مدت و حافظه بلندمت، در حالی که متغیر مستقل، مدت زمان سخنرانی است که با چهار زمان 30، 60، 90 و 120 دقیقه اندازه‌گیری می‌شود.

باید توجه داشت که مانوا دارای یک آماره آزمون کلی است و نمی‌تواند بگوید کدام یک از گروه‌های متغیر مستقل به طور معنی‌دار از یک‌دیگر متفاوت هستند. این آماره تنها می‌تواند بگوید حداقل دو گروه دارای تفاوت هستند. چون ممکن است سه، چهار، پنج یا تعداد بیشتری گروه در طرح آزمایش داشته باشیم، تعیین آن که کدام یک از گروه‌ها متفاوت هستند مهم است. برای همین امر می‌توان از آزمون‌های تعقیبی استفاده کرد.

در ادامه طی یک مثال، اجرای تحلیل واریانس مانوا در SPSS شرح داده می‌شود. پیش از آن، شرایطی که باید برقرار باشند تا مجاز به استفاده از آنوا باشیم، ذکر می‌شوند.

شرایط استفاده از تحلیل واریانس چند متغیره مانوا

زمانی که برای انجام تحلیل‌های خود، مانوای یک‌طرفه را انتخاب می‌کنیم، قسمتی از فرایند شامل بررسی شرایط داده‌ها است تا مطمئن شویم داده‌ها اجازه اجرای مانوا را می‌دهند. برای اجرای مانوا، باید 9 شرط که در ادامه می‌آیند برقرار باشند. البته نباید تعجب کرد اگر یک یا دو تا از این شرط‌ها در اجرای آزمایش‌های واقعی برقرار نباشند. در این صورت معمولاً راه‌حل‌های جایگزین وجود دارند.

شرایطی که باید برای اجرای تحلیل واریانس چند متغیره برقرار باشند، عبارتند از:

1- باید تعداد دو یا بیشتر متغیر وابسته داشته باشیم که هر کدام در مقیاس‌های بازه‌ای یا نسبتی اندازه‌گیری شده‌اند (یعنی کمّی باشند). مثال‌هایی از متغیرهای وابسته که دارای این شرط باشند عبارتند از: زمان تجدید نظر (اندازه‌گیری‌شده به ساعت)؛ هوش (اندازه‌گیری‌شده با استفاده از امتیاز IQ)، عملکرد در امتحان (اندازه‌گیری‌شده از صفر تا 100)؛ وزن (اندازه‌گیری‌شده به کیلوگرم).

2- متغیر مستقل حاضر در مطالعه باید شامل دو یا تعدادی بیشتری گروه باشد. به عنوان مثال‌هایی از متغیر مستقلی که دارای این شرط هستند می‌توان از این موارد نام برد: نژاد (مثلاً در سه گروه قفقازی، آفریقایی-آمریکایی و اسپانیایی)؛ سطح فعالیت بدنی (مثلاً در چهار گروه بسیار کم، کم، متوسط و زیاد)؛ شغل (مثلاً در پنج گروه جراح، دکتر، پرستار، دندان‌پزشک و درمانگر).

3- مشاهدات باید مستقل از هم باشند، یعنی هیچ رابطه‌ای بین مشاهدات در هر گروه یا بین گروه‌های مختلف نباشد. به عنوان مثال، شرکت‌کنندگان حاضر در هر گروه نباید در بیش از یک گروه حضور داشته باشند. این مسئله بیشتر مربوط به طراحی پژوهش است و برای آن آزمونی وجود ندارد، ولی شرطی مهم برای اجرای مانوا است.

4- حجم نمونه باید کافی باشد. برای مانوا باید تعداد مشاهدات در هر گروه از متغیر مستقل از تعداد متغیرهای وابسته حاضر در مطالعه بیشتر باشند.

5- نباید داده‌های پرت تک‌متغیره یا چندمتغیره وجود داشته باشند. شناسایی داده‌های پرت تک‌متغیره با نمودار جعبه‌ای و داده‌های پرت چندمتغیره با استفاده از فاصله ماهالانوبیس (Mahalanobis distance) انجام می‌شود.

6- داده‌ها باید نرمال چندمتغیره باشند. متأسفانه، نرمال بودن چندگانه شرطی بحث‌برانگیز است و در SPSS نمی‌توان آن را بررسی کرد. به جای آن، فقط نرمال بودن هر یک از متغیرهای وابسته بررسی می‌شود. برای این کار می‌توان به عنوان مثال، از آزمون شاپیرو-ویلک استفاده کرد.

7- باید رابطه‌ای خطی بین هر جفت از متغیرهای وابسته به ازای هر گروه از متغیر مستقل وجود داشته باشد. اگر متغیرها به طور خطی وابسته نباشند، توان آزمون کاهش می‌یابد. برای بررسی این شرط می‌توان از نمودار ماتریس پراکَنش برای هر گروه از متغیر مستقل استفاده کرد.

8- ماتریس‌های واریانس-کوواریانس باید همگن باشند. برای بررسی این شرط می‌توان از آزمون اِم-باکس (Box’s M test) برای برابری کوواریانس استفاده کرد. اگر داده‌ها دارای این شرط نباشند، باید آزمون همگنی لِوِن (Leven) را برای همگنی واریانس نیز اجرا کرد تا شاید بتوان دلیل عدم برقراری شرط را پیدا کرد.

9- نباید هم‌خطی وجود داشته باشد. به طور مطلوب، متغیرهای وابسته باید همبستگی متوسطی با هم داشته باشند. اگر همبستگی‌ها خیلی کم باشند، بهتر است از آنواهای جداگانه استفاده شود. اما اگر همبستگی‌ها زیاد باشند (بیشتر از 0.9)، آن گاه همخطی وجود دارد. این مسئله برای تحلیل واریانس چند متغیره مشکل‌ساز است.

برای بررسی شروط شماره 5 تا 9 مذکور در بالا می‌توان از SPSS استفاده کرد. اما پیش از آن، باید مطمئن باشیم شروط شماره 1 تا 4 برقرار هستند، که برای آن‌ها نیازی به استفاده از SPSS نیست.

تحلیل واریانس چند متغیره مانوا در spss

برای یادگیری بهتر نحوه انجام تحلیل واریانس چند متغیره، این مثال را در نظر می‌گیریم.دانش‌آموزان حاضر در یک دبیرستان از سه مدرسه ابتدایی متفاوت آمده‌اند. مدیر دبیرستان می‌خواهد بداند آیا در بین دانش‌آموزان مدارس ابتدایی مختلف به لحاظ تحصیلی تفاوت وجود دارد یا خیر. به همین منظور، تعداد 20 دانش‌آموز از مدرسه A، 20 دانش‌آموز از مدرسه B و 20 دانش‌آموز از مدرسه C انتخاب می‌شوند و عملکرد تحصیلی آن‌ها توسط نمرات پایان‌سالی که در امتحانات انگلیسی و ریاضی کسب کرده‌اند اندازه‌گیری می‌شود. بنابراین دو متغیر وابسته شامل نمره انگلیسی و نمره ریاضی وجود دارد و متغیر مستقل، مدرسه است که شامل سه گروه مدرسه A، مدرسه B و مدرسه C است.

نرم افزار SPSS چیست؟

حال برای انجام مانوا، متغیرهای حاضر در SPSS بدین صورت در نظر گرفته می‌شوند. متغیر مستقل با نام School، متغیرهای وابسته به صورت English_Score و Maths_Score هستند. پس از بررسی برقراری شروط نه‌گانه که پیشتر ذکر شد، مانوا را طی مراحل زیر در SPSS اجرا می‌کنیم.

1- از مسیر زیر، پنجره مانوا را فراخوانی می‌کنیم:

MULTIVARIAT

در ادامه پنجره زیر، یعنی پنجره مانوا ظاهر می‌شود:

MULTIVARIAT-IN-SPSS

2- همانند شکل زیر، متغیر مستقل را به قسمت عامل‌های ثابت، و متغیرهای وابسته را به قسمت متغیرهای وابسته منتقل می‌کنیم:

MULTIVARIAT-IN-SPSS1

3- حال روی گزینه Plots کلیک می‌کنیم و پنجره زیر ظاهر می‌شود:

MULTIVARIAT-IN-SPSS-PLOTS

4- متغیر مستقل را به محور افقی، همانند شکل زیر منتقل می‌کنیم:

independent variable-MULTIVARIAT-IN-SPSS-

5- روی گزینه Add کلیک می‌کنیم. در این مرحله باید همانند شکل زیر، متغیر مستقل به قسمت نمودارها اضافه شده باشد:

MULTIVARIAT-IN-SPSS-ADD

6- روی Continue کلیک می‌کنیم و مجدداً به پنجره مانوا برمی‌گردیم.

7- حال روی Post Hoc کلیک می‌کنیم و به پنجره آزمون‌های تعقیبی همانند شکل زیر وارد می‌شویم:

MULTIVARIAT-IN-SPSS-POST-HSC

8- متغیر مستقل را به قسمت آزمون‌های تعقیبی منتقل و گزینه آزمون توکی را همانند شکل فعال می‌کنیم:

MULTIVARIAT-IN-SPSS-POST-HSC1

نکته) می‌توان از آزمون‌های تعقیبی دیگر هم استفاده کرد که بستگی به طرح پژوهش دارد. اگر متغیر مستقل تنها دارای دو گروه باشد، احتیاج به استفاده از آزمون‌های تعقیبی نیست.

9- روی Continue کلیک می‌کنیم و مجدداً به پنجره تحلیل واریانس چند متغیره برمی‌گردیم.

10- روی EM Means کلیک می‌کنیم و همانند شکل زیر، به پنجره میانگین‌های حاشیه‌ای براوردشده می‌رویم:

MULTIVARIAT-IN-SPSS-EM-Means

11- متغیر مستقل را از قسمت عامل‌ها به قسمت نمایش میانگین‌ها وارد می‌کنیم. این کار همانند پنجره زیر انجام می‌شود:

MULTIVARIAT-IN-SPSS-EM-Means1

12- روی Continue کلیک می‌کنیم و باز هم به پنجره مانوا بازمی‌گردیم.

13- روی Options کلیک می‌کنیم و همانند شکل زیر، به پنجره گزینه‌های مانوا وارد می‌شویم:

MULTIVARIAT-IN-SPSS-DESCRIPTIVE

14- گزینه‌های آماره‌های توصیفی و اندازه‌اثرهای براوردشده را همانند شکل زیر فعال می‌کنیم:

Enable-effect-size

15- روی Continue کلیک می‌کنیم و به پنجره مانوا برمی‌گردیم.

16- روی OK کلیک می‌کنیم تا خروجی ظاهر شود.

تفسیر نتایج تحلیل واریانس چند متغیره

نرم‌افزار SPSS تعداد زیادی جدول برای خروجی تحلیل واریانس چند متغیره ارائه می‌کند. در این قسمت، فقط پنجره‌های اصلی که برای تفسیر نتایج مانوا احتیاج است بررسی می‌کنیم.

جدول آماره‌های توصیفی

Table-of-descriptive-statistics

در این جدول، میانگین و انحراف معیار برای متغیرهای وابسته نمایش داده می‌شود، که توسط متغیر وابسته جدا شده‌اند. هم چنین، این جدول دارای سطرهای کل (Total) هم هست، که میانگین‌ها و انحراف معیارهای گروه‌ها را نمایش می‌دهد که فقط توسط متغیرمستقل جدا شده‌اند.

جدول آزمون‌های چندمتغیره

Multivariate-test-table

در این جدول، نتایج تحلیل واریانس چند متغیره ارائه شده است. در سطر دوم این جدول، نتیجه آزمون لامبدای ویلکس به نمایش درآمده که با مربع قرمز مشخص شده است. برای این که بدانیم آیا مانوا به طور آماری معنی‌دار است یا خیر، باید به مقدار Sig نگاه کنیم. در این جدول، مقدار Sig برابر با 0.000 شده است که کم‌تر از مقدار آلفا (0.05) و لذا معنی‌دار است. پس می‌توان نتیجه گرفت عملکرد تحصیلی دانش‌آموزانی که از مدرسه‌های ابتدایی متفاوت آمده‌اند با هم دارای تفاوت معنی‌دار است.

نتیجه به‌دست‌آمده را می‌توان بدین صورت گزارش کرد: بین عملکرد تحصیلی بر اساس مدارس قبلی دانش‌آموزان تفاوت معنی‌دار وجود دارد که در آن F (4, 112) = 13.74، p < .0005.

حال اگر آزمون معنی‌دار شده باشد (که در مثال حاضر معنی‌دار است)، باید از آزمون‌های تعقیبی نیز استفاده کرد که در ادامه خواهیم دید.

جدول آنواهای تک‌متغیره

Table-of-univariate-variables

در جدول فوق، به سطرهایی که با مربع قرمز مشخص شده‌اند توجه می‌کنیم. با توجه به این سطرها می‌بینیم که مدرسه قبلی دارای اثری معنی‌دار بر هر دو متغیر وابسته نمره انگلیسی (F (2, 57) = 18.11، p < .0005) و نمره ریاضی (F (2, 57) = 14.30، p < .0005) است.

جدول مقایسات چندگانه

Multiple-comparison-tables

در این جدول نتیجه آزمون تعقیبی توکی ارائه شده است. این جدول نشان می‌دهد برای میانگین نمرات انگلیسی تفاوت معنی‌دار بین مدارس A و B (p < .0005)، مدارس A و C (p < .0005) وجود دارد، اما بین مدارس B و C تفاوت معنی‌دار وجود ندارد (p = .897). هم چنین، میانگین نمرات ریاضی دارای تفاوت معنی‌دار بین مدارس A و C (p < .0005) و مدارس B و C (p = .001) است، اما بین مدارس A و B دارای تفاوت معنی‌دار نیست (p = .443). این نتایج را می‌توان در نمودارهای زیر هم دید:

Estimated-marginal-means-of-english-score
Estimated-marginal-means-of-english-score1

تحلیل واریانس چند متغره چه در مباحث تحلیل آماری پایان نامه، نوشتن فصل چهارم پایان نامه و چه در کسب و کار و سازمان های مختلف کاربرد های مختلفی دارد. در این مقاله سعی بر این بود تا شما با تمامی کاربرد های آن آشنا شوید. اما در این مسیر مشکلات فراوانی ممکن است که ایجاد شود. شما می توانید مشکلات را با افراد متخصص در میان بگذارید. این امکان در سایت آمار پیشرو در قسمت مشاوره آماری رایگان فراهم شده است. شما می توانید با تکمیل فرم منتظر تماس متخصصان باشید.

در این مقاله یکی از مباحث آماری آموزش داده شده است، برای با خبر شدن از جدید ترین آموزش ها و مطالب شما می توانید. صفحه اینستاگرامی شرکت آمار پیشرو را دنبال کنید.

در این مطلب سعی کردیم به بهترین شکل نحوه تحلیل واریانس چند متغیره را به شما آموزش دهیم اما قطعا این مبحث نیز همچون تمامی موضوعات دچار پیچیدگی های خاصی خواهد بود که چنانچه نیاز به انجام پروژه توسط افراد با تجربه باشد، شما می توانید در قسمت ثبت سفارش فرم مربوطه را تکمیل کرده و منتظر تماس متخصصان ما باشید. شرکت آمار پیشرو در سریعترین زمان ممکن با هزینه مناسب و با بهترین کیفیت این خدمات را در اختیار شما قرار خواهد داد.

تحلیل واریانس چند متغیره چیست؟

تحلیل واریانس چندمتغیره یک‌طرفه (مانوای یک‌طرفه) برای تعیین این امر استفاده می‌شود که آیا تفاوتی بین گروه‌های یک متغیر مستقل در بیش از یک متغیر وابسته پیوسته وجود دارد یا خیر.

مثالی برای تحلیل واریانس چند متغیره؟

فرض کنید می‌خواهیم تأثیر سطح فعالیت بدنی را بر کاهش وزن و کاهش فشار خون افراد بررسی کنیم.

تحلیل واریانس چند متغیره دو طرفه چیست؟

اگر بخواهیم اثر دو متغیر مستقل را بر بیش از یک متغیر وابسته بسنجیم، آن گاه باید از تحلیل واریانس چند متغیره دو طرفه (مانوای دوطرفه) استفاده کنیم.

اکتبر 13, 2020 8 نظرات
0 فیس‌بوکتوییترپینترستایمیل
chi-square
آمار استنباطی ناپارامتری

آزمون کای دو(chi-square) یا خی دو چیست؟- نیکویی برازش و استقلال در SPSS

توسط لادن عباس نیا سپتامبر 19, 2020
نوشته شده توسط لادن عباس نیا

آزمون کای دو یا خی دو و یا مربع کای ازمونی است که فراوانی های مورد انتظار را با فراوانی های تحقیق مقایسه می کند تا مشخص شود آیا تفاوت معنا داری بین این دو فراوانی وجود دارد یا خیر. حال در ادامه ما دو نوع از آزمون کای دو را تعریف خواهیم کرد، سپس با مثالی ملموس آن را در SPSS اجرا خواهیم کرد.

آزمون کای دو (chi-square)چیست؟

دو نوع آزمون کای 2 وجود دارد که هر کدام به منظوری متفاوت استفاده خواهند شد. در ادامه به این دو نوع خواهیم پرداخت.

آزمون کای دو برای نیکویی برازش

که برای تحلیل یک متغیر رده‌ای به کار می‌رود. به این صورت که اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد. با توجه به نتایج این آزمون اگر مقدار معناداری آزمون برای گروهی کمتر از 0/05 به‌دست آمده باشد، می‌توان نتیجه گرفت که بین فراوانی‌های آن گروه تفاوت معناداری وجود دارد. به‌عبارتی تفاوت بین فراوانی‌ها از نظر آماری تایید می‌گردد.

آزمون کای دو برای استقلال

که برای تعیین رابطه‌ی بین دو متغیر رده‌ای از این آزمون کای دو استفاده می‌کنیم (جدول توافقی). به‌عبارتی اگر بخواهیم استقلال بین دو متغیر کیفی را آزمون کنیم از آماره کای دو دونمونه‌ای استفاده می‌کنیم. آماره کای دو بر مقادیر مشاهده شده و مورد انتظار که از طریق جدول توافقی به‌دست می‌آیند، استوار است. در جدول توافقی مقدار مشاهده شده عبارت است از تعدادی از نمونه‌ها که در یک خانه قرار دارند. مقدار مورد انتظار عبارت است از تعدادی که در صورت مستقل بودن دو متغیر پیش‌بینی می‌شود.

H0: دو متغیر کیفی مستقل هستند.

H1: دو متغیر کیفی مستقل نیستند.

جز اصلی جدول توافقی تعداد نمونه‌هایی است که در هر یک از خانه‌های جدول قرار می‌گیرند. روش‌های آماری که در این فرضیه‌های صفر به‌کار می‌روند بر اساس مقایسه موارد مشاهده شده در هر خانه با تعداد مورد انتظار آن عمل می‌کند. تعداد مورد انتظار به‌طور ساده تعدادی از نمونه‌هاست که در صورت صحیح بودن فرضیه صفر انتظار می‌رود در هر یک از خانه‌ها پیدا شود. فرضیه صفر در جدول توافقی به‌صورت مستقل بودن دو متغیر بیان می‌شود.

پیش‌فرض‌هایی که قبل از انجام این آزمون‌ها می‌بایستی برقرار باشند، به‌صورت زیرند:

نمونه‌گیری تصادفی: مشاهدات باید به‌طور تصادفی از جامعه انتخاب شوند.

استقلال مشاهدات: هر مشاهده مربوط به یک نفر است و هیچ شخصی دوبار در نمونه‌گیری حساب نمی‌شود.

اندازه فراوانی‌های مورد انتظار: زمانی که تعداد سلول‌ها کمتر از 10 است و اندازه‌ی نمونه کوچک است، کمترین فراوانی مورد انتظاری که هر یک از سلول‌ها می‌بایستی برای آزمون کای دو داشته باشند 5 است. با این حال، مقدار مشاهده شده می‌تواند کمتر از 5 و یا حتی صفر باشد.

مثال آزمون کای دو یا خی دو برای نیکویی برازش

جدول زیر نگرش 60 نفر را نسبت به ارتش آمریکایی مستقر در استرالیا نشان می‌دهد. اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آزمون کای دو برای نیکویی برازش آن را نشان می‌دهد.

آزمون-کای-دو

داده‌ها را در یک فایل SPSS ثبت کرده‌ایم، فایل داده‌ها را باز می‌کنیم:
قبل از شروع کار شاید نیاز داشته باشید بدانید نرم افزار SPSS چیست؟

ki2-Goodness-of-fit-in-spss

اکنون باید مقادیر ستون freq (فراوانی) را به عنوان وزن‌های متغیر attitude (نوع نگرش) تعریف کنیم. با این عمل مشخص می‌کنیم که 8 نفر کد 1 (موافق)، 20 نفر کد 2 (مخالف) و 32 نفر کد 3 (بی‌نظر) را انتخاب کرده‌اند. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

ki2-Goodness-of-fit-in-spss-Weight-Cases
ki2-Goodness-of-fit-in-spss-Frequency-Variable

گزینه Weight cases by را انتخاب کنید و متغیر freq را به قسمت Frequency Variable انتقال دهید و روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیر attitude تعریف می‌شوند.

اکنون از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، متغیر attitude را به سمت راست منتقل و روی OK کلیک کنید.

ki2-Goodness-of-fit-in-spss-attitude
ki2-Goodness-of-fit-in-spss-Chi-square

خروجی به صورت زیر می‌باشد:

ki2-Goodness-of-fit-in-spss-out-put

با توجه به جدول فوق آزمون کای دو معنادار است (چون Sig = 0.001 < 0.05)، بنابراین نتیجه می‌گیریم که اختلافی معنادار در فراوانی نگرش افراد، نسبت به ارتش مستقر در استرالیا وجود دارد. همچنین جدول فراوانی نشان می‌دهد که اکثر مردم بی‌نظر هستند.

در مثال فوق، فراوانی‌های مورد انتظار را برای هر یک از 3 گروه، یکسان در نظر گرفتیم. یعنی به هر گروه فراوانی مورد انتظار 20 را اختصاص دادیم یا به عبارت دیگر، شانس یک سوم را به هر گروه اختصاص دادیم. اکثر اوقات فراوانی‌های مورد انتظار در بین گروه‌ها به طور یکسان توزیع نمی‌شود. فرض کنید در مثال فوق به ترتیب فراوانی‌های مورد انتظار 15، 15 و 30 را به گروه‌ها اختصاص دهیم، اکنون دوباره مثال را انجام می‌دهیم.

از منوی Analyze به ترتیب گزینه‌های Nonparametric Tests، Legacy Dialogs و Chi-square… را انتخاب نمایید تا کادر مربوطه باز شود، سپس متغیر attitude را به سمت راست منتقل کنید.

در قسمت Expected Values با انتخاب گزینه‌ی Values فیلد مقابل آن فعال می‌شود. در این قسمت عدد 15 را تایپ و روی Add کلیک کنید. دوباره 15 را تایپ و روی Add کلیک کنید. در پایان عدد 30 را تایپ و روی Add کلیک کنید، اکنون کادر باید همانند شکل زیر باشد:

ki2-Goodness-of-fit-in-spss-Expected-Values

حال روی OK کلیک کنید تا خروجی نمایش یابد:

ki2-Goodness-of-fit-in-spss-out-put2

با توجه به آزمون کای دو مشاهده می‌کنیم که میان فراوانی‌های مشاهده شده (با توجه به فراوانی‌های موردانتظار و نسبت‌های داده شده به آن‌ها) اختلاف معناداری وجود ندارد (چون Sig = 0.079 > 0.05).

همان‌طور که قبلا هم اشاره کردیم هدف از ایجاد یک جدول توافقی، یافتن رابطه‌ی بین دو متغیر است، اکنون برای این منظور مثالی مطرح می‌کنیم:

مثال: (آزمون کای دو (ki2) برای استقلال)

فرض کنید می‌خواهیم بررسی کنیم که آیا سطح تحصیلات افراد از جنسیت مستقل است یا نه؟ نمونه‌ای متشکل از 300 نفر برداشتیم و خلاصه نتایج را در جدول زیر آورده‌ایم:

ki2-Goodness-of-fit-table

برای این‌که داده‌های جدول را در SPSS تعریف کنیم، ابتدا یک فایل داده جدید باز کنید و متغیرهای Gender و Education را به ترتیب با کدهای مربوطه تعریف نمایید. به علاوه لازم است متغیر دیگری به نام Count (یا هر نام دلخواه دیگری) ایجاد نمایید، این متغیر در بردارنده‌ی مقادیر موجود در جدول می‌باشد. پس از وارد کردن اطلاعات، فایل داده باید به صورت زیر باشد:

Ki2-independence-test-in-spss

حال باید مقادیر ستون Count را به عنوان وزن‌های دو متغیر جنسیت و تحصیلات تعریف کنیم. از منوی Data گزینه‌ی Weight Cases… را برگزینید تا کادر زیر باز شود:

گزینه Weight cases by را انتخاب کنید و متغیر Count را به قسمت Frequency Variable انتقال دهید، سپس روی گزینه OK کلیک کنید. با این عمل، وزن‌های مربوطه برای متغیرها تعریف می‌شوند.

Ki2-independence-test-Frequency-Variable-in-spss

پس از تعریف متغیرها و تعیین وزن‌های مربوطه، به انجام تحلیل می‌پردازیم. از منوی Analyze به ترتیب گزینه‌های Descriptive Statistics و Crosstabs را انتخاب نمایید تا کادر مربوطه باز شود، متغیر Gender را به قسمت Row(s) و متغیر Education را به قسمت Column(s) انتقال دهید:

Ki2-independence-test-Crosstabs-in-spss
Ki2-independence-test-Crosstabs2-in-spss

قبل از انجام تحلیل به بررسی گزینه‌های موجود در این کادر می‌پردازیم.

با کلیک روی دکمه Statistics کادر زیر نمایان می‌شود:

Ki2-independence-test-Statistics -in-spss

با توجه به نوع متغیر مورد مطالعه، آماره‌های مناسب در این جدول خلاصه شده‌اند. مثلا اگر هر دو متغیرمان اسمی و یا یکی اسمی و دیگری ترتیبی باشد، از آماره‌های قسمت Nominal استفاده می‌کنیم. اگر هر دو رتبه‌ای باشند، از آماره‌های قسمت Ordinal استفاده می‌کنیم و اگر یکی اسمی و دیگری فاصله‌ای باشد، از آماره Eta موجود در قسمت Nominal by Interval استفاده می‌کنیم.

مقدار شاخص‌های رابطه برای متغیرهای ترتیبی بین 1- و 1+ تغییر می‌کند؛ اما در متغیرهای اسمی، چون صحبت از جهت رابطه، معنا ندارد، مقدار این شاخص‌ها بین صفر تا 1+ تغییر می‌کند. توجه کنید که استفاده از هر کدام از این آماره‌ها شرایط خاص خود را دارد که توضیحات مختصری از این شاخص‌ها را در جدول زیر آورده‌ایم:

آماره کای دو (Chi-square): توسط این آماره، تنها فرض مستقل بودن متغیرها را می‌توان بررسی کرد و مقدار همبستگی و رابطه را نمی‌تواند مشخص کند.

همبستگی (Correlation): از طریق این گزینه، دو نوع همبستگی محاسبه می‌شود. ضریب همبستگی پیرسون و ضریب همبستگی اسپیرمن. ضریب همبستگی پیرسون هنگامی که هر دو متغیر جدول کمّی (پیوسته) هستند، به کار می‌رود و مقدار آن بین 1- و 1+ تغییر می‌کند. مقدار صفر نشان می‌دهد که هیچ رابطه‌ی خطی بین متغیرها وجود ندارد.

برای جداولی که سطر و ستون آنها دربردارنده داده‌های رتبه‌ای است، ضریب همبستگی اسپیرمن را به کار می‌برند که همانند ضریب همبستگی پیرسون تفسیر می‌شود. زمانی که اندازه نمونه بزرگ باشد بهتر است از ضریب همبستگی اسپیرمن استفاده نشود؛ چون این ضریب برای نمونه‌های بزرگ به طور مجانبی استفاده می‌شود و از دقت لازم برخوردار نیست. از این رو از ضرایب همبستگی معادل همانند کندال استفاده می‌کنند.

ضریب توافق (Contingency Coefficient): این ضریب اندازه‌ای از همبستگی بر پایه‌ی آماره کای – دو ارائه می‌کند و مقادیر دامنه آن بین صفر و 1 می‌باشد. مقدار صفر بیان می‌کند که بین متغیرهای سطری و ستونی همبستگی وجود ندارد و مقادیر نزدیک به 1 نشان می‌دهند که درجه بالایی از همبستگی بین متغیرها وجود دارد. این ضریب برای جداول 2×2 و بالاتر به‌کار می‌رود.

ضریب فای و V‌ی کرامر (Phi and Cramer’s V): کاربرد ضریب فای تنها محدود به جداول 2×2 است. یعنی زمانی که هر یک از متغیرهای سطری و ستونی تنها ارزش‌های صفر (خیر) و یک (بلی) داشته ‌باشند. برای تعمیم این ضریب به جداول بزرگتر از آماره V کرامر استفاده می‌کنیم.

ضریب لاندا (Lambda): این ضریب در دو حالت محاسبه می‌شود:

  • نامتقارن: به این دلیل به آن نامتقارن گویند که در محاسبه‌ی آن بسته به این که کدام یک از دو متغیر را مستقل و کدام را وابسته در نظر بگیریم، مقدار لاندا تغییر می‌کند؛ یعنی قرینه نیست.
  • متقارن: در این حالت فرقی نمی‌کند کدام یک از متغیرها را مستقل و کدام را وابسته در نظر بگیریم. در هر دو صورت مقدار لاندا یکسان خواهد بود.

در هنگام استفاده از این ضریب می‌بایستی مراقب بود. زمانی که دو متغیر از نظر آماری مستقل هستند، مقدار لاندای آن‌ها صفر خواهد بود؛ ولی عکس آن صحیح نیست. یعنی صفر بودن لاندا لزوما به معنای مستقل بودن نیست. به عبارت دیگر ممکن است دو متغیر با هم رابطه داشته باشند، اما لاندای آن‌ها صفر باشد، زیرا دانستن متغیر مستقل، هیچ کمکی به پیش‌بینی ما نکرده است.

گاما (Gamma): این آماره اندازه‌ای متقارن (یعنی فرقی نمی‌کند کدام متغیر مستقل و کدام وابسته باشد) از رابطه‌ی بین دو متغیر ترتیبی است که دامنه‌ی آن بین 1- و 1+ تغییر می‌کند. مقدار نزدیک به 1 از نظر قدر مطلق، نمایانگر یک پیوند قوی بین دو متغیر می‌باشد؛ مقدار نزدیک به صفر، بیان کننده‌ی یک رابطه‌ی ضعیف است.

d سامرز (Sommers`d): این ضریب همانند شاخص گاماست؛ ولی در آن یکی از متغیرها مستقل و دیگری وابسته فرض می‌شود و دامنه آن بین 1- و 1+ تغییر می‌کند.

تاو – b کندال (Kendall`s tau-b): این شاخص برای زمانی مناسب است که جدول توافقی شما مربع است و دامنه‌ی آن بین 1- و 1+ تغییر می‌کند.

تاو – c کندال (Kendall`s tau-c): این شاخص برای جداول مختلف قابل استفاده است و مقدار آن بین 1- و 1+ متغیر است.

ضریب اتا (Eta): این شاخص برای متغیرهای اسمی و فاصله‌ای به‌کار می‌رود، که در آن متغیر وابسته بر حسب مقیاس فاصله‌ای و متغیر مستقل بر حسب مقیاس اسمی اندازه‌گیری شده‌اند. دامنه‌ی این شاخص بین صفر تا 1 است. این شاخص نامتقارن، هیچ رابطه‌ی خطی بین متغیرها در نظر نمی‌گیرد. مقدار صفر این کمیت بیان می‌کند که هیچ رابطه‌ای بین متغیرهای سطری و ستونی وجود ندارد و مقادیر نزدیک به 1 بیان می‌کند، بین آن‌ها یک رابطه با درجه بالا وجود دارد. در خروجی SPSS دو مقدار برای این ضریب نمایش می‌یابد که هر بار یکی از متغیرهای سطری یا ستونی را به عنوان متغیر فاصله‌ای (وابسته) در نظر می‌گیرد.

کاپا (Kappa): ضریب کاپا، میزان توافق دو فرد رتبه‌دهنده که یک متغیر را رده‌بندی کرده‌اند، نشان می‌دهد. مثلا از دو معلم می‌خواهیم نمرات دانش‌آموزان را در یک مقیاس سه نمره‌ای درجه‌بندی کنند، می‌خواهیم بدانیم که این دو فرد چقدر با هم توافق دارند و درجه‌بندی‌هایشان به هم نزدیک است. مقدار 1 این ضریب بیانگر توافق کامل و مقدار صفر نشان‌دهنده‌ی تصادفی بودن توزیع کدهاست. نکته‌ای که در هنگام استفاده از این ضریب باید بدان توجه داشته باشید این است که هر دو متغیر از مقادیر رده‌بندی (کدهای) یکسانی استفاده کنند و دارای تعداد یکسانی رده باشند.

ریسک (Risk): اندازه‌ای از میزان رابطه بین یک فاکتور (متغیر گروه‌بندی شده) و رخ دادن یک پیشامد (یک گزینه پاسخ) می‌باشد و برای جداول 2×2 به‌کار می‌رود. اگر فاصله اطمینان این آماره عدد 1 را دربرداشته باشد، نشان‌دهنده این است که فاکتور با پیشامد رابطه ندارد.

مک نمار (McNemar): اگر متغیرهای دو حالتی جفت داشته باشیم، از این آماره استفاده می‌کنیم. متغیر دو حالتی متغیری است که تنها دارای مقادیر صفر و 1 است و جفت بدان معنی است که پاسخ‌های هر دو متغیر برای یک گروه از افراد به‌دست آمده‌اند، همانند اندازه‌گیری ضربان قلب، قبل و بعد از تمرین. از این آماره برای آشکارسازی تغییرات در پاسخ‌ها به دلیل انجام یک عمل (قبل و بعد) استفاده می‌کنیم.

آماره کاکران و مانتل – هنزل (Cochran`s and Mantel Hanszel Statistics): از این آماره برای آزمون استقلال بین یک متغیر فاکتور دوحالتی و یک متغیر پاسخ دوحالتی شرطی شده روی ساختارهای متغیرهای تصادفی کمکی (که به وسیله متغیرهایی که در قسمت Layer تعریف می‌کنیم، مشخص می‌شوند) استفاده می‌شود. توجه کنید که اگر یک متغیر Layer تعریف کنیم، آماره‌های دیگر به صورت لایه به لایه محاسبه می‌شوند؛ ولی این آماره یک‌بار برای تمام لایه‌ها محاسبه می‌شود.

دوباره به مثال بازمی‌گردیم، گزینه‌های Chi-square و Contingency Coefficient را انتخاب و روی Continue کلیک کنید تا به کادر قبل بازگردید. در این کادر روی OK کلیک نمایید تا خروجی محاسبه شود:

ki2-Contingency-Coefficient-in-spss-out-put
ki2-Chi-square-in-spss-out-put

در مورد دو جدول اول قبلا توضیح داده‌ایم. در سومین جدول با عنوان Chi-square Tests مقدار آماره کای – دو 018/39 گزارش شده است و مقدار معناداری مرتبط با آن Sig = 0.000 است؛ یعنی فرض استقلال متغیرهای جنسیت و سطح تحصیلات رد می‌شود. از طریق چهارمین جدول با توجه به مقدار ضریب توافق یعنی، 339/0 درمی‌یابیم که نسبت پایینی از همبستگی بین این متغیرها وجود دارد.

نکته: زمانی که فراوانی‌های مورد انتظار خانه‌های جدول کوچک باشند (کمتر از 5) برای انجام آزمون استقلال، نمی‌توان از آزمون کای دو یا خی دو استفاده نمود بنابراین باید از آزمون‌های معادل یا آزمون دقیق فیشر استفاده کرد، مخصوصا هنگامی که جدول 2×2 است.

با توجه به اهمیت این موضوع شما می توانید با افراد متخصص در زمینه آزمون کای دو ارتباط برقرار کرده و سوالات خود را از آن ها بپرسید. برای پاسخ به این دغدغه ها ما در سایت آمار پیشرو راه ارتباطی را ایجاد کرده تا شما بتوانید از نظرات متخصصین به صورت رایگان استفاده کنیم. برای استفاده از این ارتباط می توانید در قسمت مشاوره آماری رایگان سوال های خود را مطرح کنید.

آزمون کای دو یکی از مباحث مهم در پایان نامه های کمی و کیفی است. این آزمون در برخی موارد با پیچیدگی های خاصی همراه است. ما در این مقاله سعی کردیم به شما یک راهنمایی کاملی نسبت به اجرای این آزمون بدهیم اما چنانچه نیاز به افراد متخصص دارید برای اجرای پروژه می توان در بخش ثبت سفارش آن را به شرکت آماری آمار پیشرو بسپارید.این مجموعه با در اختیار قرار دادن کیفیت بالا در زمان اندک سعی در جلب نظر پژوهشگران دارد.

چنانچه علاقه مند به مباحث آماری نیز هستید جدید ترین مطالبی که در سایت آمار پیشرو منتشر خواهد شد را شما می توانید با دنبال کردن صفحه اینستاگرام آمار پیشرو از آن ها با خبر شوید.

آزمون کای دو چیست؟

آزمون کای دو برای مقایسه فراوانی‌های مورد انتظار با فراوانی‌های تحقیق استفاده می‌شود.

آزمون کای دو برای نیکویی برازش چیست؟

آزمون کای دو برای نیکویی برازش جهت تحلیل یک متغیر رده‌ای به کار می‌رود و اگر اختلافی در فراوانی میان رده‌های پاسخ وجود داشته باشد، آن را نشان می‌دهد.

آزمون کای دو برای استقلال چیست؟

آزمون کای دو برای استقلال جهت تعیین رابطه بین دو متغیر رده‌ای استفاده می‌شود که از طریق جدول توافقی به‌دست می‌آید.

مثال کاربردی برای آزمون کای دو نیکویی برازش؟

فرض کنید می‌خواهیم برای 60 نفر بررسی کنیم که آیا اختلافی بین فراوانی نوع نگرش افراد نسبت به ارتش آمریکا وجود دارد یا خیر؟

مثال کاربردی برای آزمون کای دو استقلال؟

فرض کنید می‌خواهیم بررسی کنیم که آیا سطح تحصیلات افراد از جنسیت مستقل است یا نه؟

سپتامبر 19, 2020 11 نظرات
0 فیس‌بوکتوییترپینترستایمیل
نحوه نگارش فصل چهارم پایان نامه از صفر تا 100
آموزش آمار

نحوه نگارش فصل چهارم پایان نامه از صفر تا 100

توسط لادن عباس نیا آگوست 25, 2020
نوشته شده توسط لادن عباس نیا

نحوه نگارش فصل چهارم پایان نامه کارشناسی ارشد یکی از بخش هایی است که بیشتر اوقات افرادی که در رشته های دیگر تحصیل می کنند با گردآوری آن مشکل دارند. علاوه بر اینکه می توان نگارش این بخش را به شرکت های خدمات آماری سپرد اما بهتر است افراد نحوه نگارش فصل چهارم پایان نامه را بدانند تا بتوانند نسبت به کیفیت محصولی که دریافت کرده اند مطمئن شوند. این مطلب آگاهی های  لازم را درباره نحوه نگارش در اختیار شما قرار خواهد داد.

اهمیت نحوه نگارش فصل چهارم پایان نامه

فصل چهار پایان‌نامه را می‌توان به منزله‌ی یک ماشین تحلیل و تفسیر داده‌ها در نظر گرفت که کار اصلی آن تبدیل داده‌های خام به داده‌های معنی‌دار در جهت قبول یا رد فرضیه‌های پژوهش است. یک ماشین حیاتی که حکم قلب پایان‌نامه شما را دارد زیرا در روز دفاع این بخش توسط داوران مورد بررسی و نقد قرار می‌گیرد. در حقیقت اطلاعات و داده‌هایی که در فصول پیشین گردآوری شده‌اند بدون وجود فصل چهار ارزش و اعتباری ندارند.

پایان نامه نویسی آسان

عملکرد محقق در فصل چهار پایان‌ نامه است که تعیین کننده موفقیت یا عدم موفقیت او در انجام یک کار تحقیقاتی است زیرا در این فصل ما می‌توانیم ادعاهای اصلی خود را در رابطه با موضوع پایان‌نامه مان اثبات کنیم. اما باید دانست که کار با این ماشین تحلیل داده آنقدرها هم ساده نیست و نیاز به دانش، مهارت، خلاقیت و قدرت استنباط بالای محقق دارد تا بتواند داده‌ها را از دیدگاهی صحیح و علمی برای ما تحلیل کند.

تلاش ما در این کار تحقیقاتی اینست که شما را برای آشنایی و بهره‌جویی بهتر از این ماشین پیچیده آماده کنیم. با ما همراه باشید تا مرحله به مرحله دستورالعمل‌های لازم برای انجام موفقیت‌ آمیز فصل چهار را به شما نشان دهیم.

نحوه نوشتن سه بخش اصلی فصل چهارم پایان نامه کارشناسی ارشد

نحوه-نگارش-فصل-چهارم-پایان-نامه

بخش اول: مقدمه فصل چهارم پایان نامه

در این بخش که به منزله‌ی هدف از انجام کار تحقیقاتی شما هم قلمداد می‌شود شما باید برای مخاطب خود راهی را که تا الان آمده‌اید یادآوری کنید (مرور اجمالی اهداف پژوهش در فصول قبلی) و همچنین شرح دهید که این مسیر در نهایت به کدام مقصد خواهد رسید.به عنوانی دیگر تا فصل چهارم چه کرده اید و از این فصل به بعد چه خواهید کرد. توجه داشته باشید که توضیحات این بخش از یک پاراگراف فراتر نرود.

بخش دوم؛ توصیف و تجزیه و تحلیل داده‌ها در فصل چهارم پایان نامه

همانطور که پیش‌تر گفته شد، داده‌های اولیه در پژوهش به تنهایی خام و بی معنی هستند و برای اینکه قابل تفسیر بشوند باید تغییراتی در آن‌ها اعمال شود. برای اینکه شما به درک بهتری از فرآیند انجام این کار برسید ما کلیه مطالب مربوطه را تحت دو مرحله کلی شرح خواهیم داد.

الف) مرتب کردن و تنظیم داده‌ها:

قبل از انجام هرکاری ما باید از صحت داده‌هایمان اطمینان حاصل کنیم. اینکار امکان انواع تحلیل‌ها و برقراری ارتباط بین داده‌ها برای آزمون فرضیات را فراهم می‌آورد. در این فرآیند داده‌ها هم از لحاظ نظری و هم از جنبه تجربی پالایش می‌شوند و با تکنیک‌های گوناگون آماری از آنها اطلاعات استنتاج و تعمیم داده می‌شود.

1. خلاصه سازی داده‌ها (data reduction):

منظور از خلاصه کردن داده‌ها، انتخاب، تمرکز، حذف مشابه‌ها و در نهایت تنظیم و تبدیل داده‌ها به صورتی فشرده‌تر است. در این مرحله به پالودن و زدودن اضافات موجود در داده‌ها پرداخته می‌شود تا بتوان آنها را به نظم در آورده و سازماندهی کرد و نتیجه گیری نهایی را به عمل آورد. باید توجه داشت که منظور از خلاصه سازی، فقط تبدیل آن‌ها به داده های کمّی نیست. همچنین اگر پرسشی بدون پاسخ مانده باید تکمیل شود و یا اگر سوالات باهم همخوانی ندارند باید علت را پیدا کرد و پرسشنامه را اصلاح نمود.

۲. کدگذاری داده‌ها:

داده‌هایی که با ابزارهای گوناگون جمع آوری می‌شوند، پراکنده و نامنسجم هستند، لذا باید آنها را برای عملیات بعدی طبقه بندی کرد. کدبندی، تعیین یک نمره (حرف) به هر طبقه است. کدبندی برای متغیرهای غیرعددی بسیار مهم است. متغیرهای عددی هم ممکن است کدگذاری شوند. برای مثال در پرسشنامه‌هایی که پاسخ آنها بصورت طیف لیکرت طراحی شده است نسبت دادن صحیح یک عدد به یک پاسخ از اهمیت ویژه‌ای برخوردار است.

۳. نمایش داده‌ها (data display)

منظور از عرضه داده‌ها ظاهر ساختن مجموعه‌ای سازمان یافته از داده‌ها است، به گونه‌ای که به کمک آنها بتوان نتیجه گیری به عمل آورد. برای عرضه داده‌های کیفی می‌توان از انواع ماتریس‌ها و نمودارها، شبکه‌ها و مانند آن نام برد. با استفاده از این شیوه‌ها، داده‌ها، بصورت اطلاعات سازمان یافته تنظیم می‌شوند تا پژوهشگر با دستیابی به آن‌ها بتواند به آسانی به واقعیت‌های حاصل از داده‌ها پی برد و از آنها نتیجه گیری به عمل آورد، یا اینکه به عرضه داده‌های بیشتری پرداخته و نتیجه گیری نهایی را به دست آورد.

این بخش مرتب کردن و تنظیم کردن داده ها در نحوه نگارش فصل چهارم پایان نامه اهمیت بسزایی دارد زیرا کار جمع اوری داده ها توسط پژوهشگر به واسطه همین نمایش داده ها است که مشخص خواهد شد.

ب) تجزیه و تحلیل داده‌ها

روش‌های تحلیل داده‌ها به دو دسته کلی تقسیم می‌شوند:

  • تجزیه و تحلیل کمی:

تحلیل کمی در شرایطی کاربرد دارد که مفاهیم از طریق معرف‌های تجربی کمی اندازه گیری شده باشند. ابزار تحلیل کمی، تکنیک‌های آماری است. در تحلیل کمی واقعه را از بیرون می‌کاویم. تحلیل کمی بی نیاز از تحلیل کیفی نیست. محقق به منظور تکمیل تحلیل نیازمند آن است که تحلیل کمی را با تحلیل کیفی همراه سازد. تحلیل کیفی بار معنایی یافته‌های کمی را روشن‌تر می‌نماید. در سطح تحلیل توصیفی، آماره‌های توصیفی مانند میانگین، واریانس، انحراف استاندارد، میانه و مد مورد استفاده قرار می‌گیرد.

  • تجزیه و تحلیل کیفی:

به طور کلی در مواردی که توجه بیشتر به صفت‌های فردی معطوف است از روش‌های تحلیل کیفی استفاده می‌شود. در تحلیل کیفی، داده‌های گردآوری شده از نوع داده‌های کیفی هستند. اما امکان به کار بردن داده‌های کمّی نیز وجود دارد. در اینصورت باید از این داده‌ها طبق منطق تحلیل کیفی استفاده کرد. پیش نیاز مهم هر تحلیل کیفی عدم پیش داوری محقق یا دخالت دادن دیدگاه‌ها یا مفروضاتی است که ممکن است در تجزیه و تحلیل داده‌ها تداخل ایجاد نماید.

این ویژگی باعث می‌شود که پژوهشگر دیدگاه‌های شخصی خود را کمتر دخالت داده و یک پدیده را همانگونه که هست مورد بررسی قرار دهد. حوزه‌های تحلیل کیفی در علوم انسانی به طور کلی به علوم سیاسی و روابط بین‌الملل به طور خاص گستره وسیعی دارد.

بخش عمده‌ای از مطالعات مربوط به تاثیر ایدئولوژی، دین، فرهنگ، سیاست، اخلاق و مانند آن را که بر رفتار انسان تمرکز دارند می‌توان با استفاده از روش تجزیه و تحلیل کیفی و عقلی، تجزیه و تحلیل نمود. به طور کلی تحقیقاتی که نوعا کتابخانه‌ای و نظری هستند و اطلاعات به وسیله ابزارهای سنجش کتابخانه‌ای و اسنادی گردآوری می‌شود، از نوع تحقیقات کیفی هستند.

در نحوه نگارش فصل چهارم پایان نامه این بخش از جهتی مهم است که باید داده هایی که به زحمت جمع آوری شده است نمایش داده شود.

بخش سوم؛ آزمون فرضیات یا طرح سوالات در فصل چهارم پایان نامه:

بسیاری از افراد، این بخش را مهم‌ترین بخش فصل چهارم می‌دانند چرا که حالا محقق باید با بهره گیری از آزمون‌ های مناسب، اقدام به تحلیل داده‌های بدست آمده کرده و نتیجه را توضیح دهد. برای تحلیل داده‌ها به ابزارهای آماری و نرم افزارهایی نظیر SPSS نیاز است.

در ابتدا بهتر است با مفهوم فرضیات در پایان نامه بیشتر آشنا شویم.

فرضیه عبارت است از حدس، ظن، گمان یا توضیح آزمایش نشده پژوهشگر درباره رابطه بین دو یا چند متغیر، رفتار، پدیده یا واقعه معینی که به وقوع پیوسته یا هنوز اتفاق نیفتاده‌ است. می‌توان نتیجه گرفت که فرضیه در حقیقت پیش‌بینی یا انتظار پژوهشگر درباره چگونگی رابطه بین متغیرها، رفتارها و یا حادثه‌های مورد مطالعه است.

  • انواع فرضیه:

فرضیه بر اساس ملاک‌های مختلفی طبقه‌بندی شده است. اما در یک طبقه‌بندی کلی، فرضیه به دو دسته تقسیم می‌شود:

الف) فرضیه تحقیقی:

فرضیه تحقیقی بیانی است که به توصیف رابطه بین متغیرها می‌پردازد. به عبارت دیگر، این فرضیه انتظارات پژوهشگر را درباره رابطه بین متغیرها نشان می‌دهد و به همین دلیل یک راه‌حل پیشنهادی است. فرضیه‌های تحقیقی به دوگونه تقسیم می‌شوند:

۱) جهت‌دار

۲) بدون جهت

فرضیه جهت‌دار به فرضیه‌ای گفته می‌شود که در آن جهت ارتباط یا جهت تاثیر متغیر مستقل بر متغیر وابسته مشخص و معین است. از این فرضیه هنگامی استفاده می‌شود که پژوهشگر دلایل مشخصی برای پیش‌بینی رابطه معینی داشته باشد.

فرضیه بدون جهت به فرضیه‌ای که در آن جهت اختلاف یا روابط مشخص نیست، گفته می‌شود.

برای آزمون فرضیه‌های جهت‌دار از آزمون‌های آماری یک‌دامنه استفاده می‌شود، در صورتیکه با فرضیه‌های بدون جهت آزمون آماری دو دامنه بکار برده می‌شود.

جهت فرضیه‌های تحقیقی، به کمک ادبیات تحقیق و با استفاده از تجارب علمی و عملی پژوهشگر تعیین می‌شود. در پژوهش‌هایی که هدف آنها کشف روابط بین متغیرها یا ارجاع حس کنجکاوی علمی پژوهشگر باشد، غالبا از فرضیه‌های بدون جهت استفاده می‌شود. باتوجه به اینکه پژوهشگر اصل را بر درستی فرض صفر قرار می‌دهد معمولا در علوم رفتاری از فرضیه‌های بدون جهت بیشتر استفاده می‌شود.

ب) فرضیه‌های آماری:

فرضیه‌های آماری، جمله‌ها یا عبارت‌هایی هستند که با استفاده از نمادهای آماری و به صورت پارامتر نوشته می‌شوند و نقش آنها هدایت پژوهشگر در انتخاب آزمون آماری است. به عبارت دیگر، پژوهشگر روش‌های آماری لازم را با استفاده از فرضیه‌های آماری انتخاب می‌کند. فرضیه آماری یک بیان مقداری درباره پارامترهای جامعه است. فرضیه آماری به دو قسم تقسیم می‌شود:

۱) فرض صفر

۲) فرض خلاف

فرض صفر یک بیان مقداری است که به صورت پارامتر صورت‌بندی می‌شود و مبنای ریاضی آن، برهان خلف است. این فرض معمولا به این منظور بیان می‌شود که پژوهشگر را به ارزشیابی فرضیه تحقیقی قادر سازد. چنین فرضیه‌ای مبین عدم تفاوت است. فرض صفر را با (H0) نشان می‌دهند.

فرض خلاف با (HA) نمایش داده می‌شود و همانند فرض صفر به صورت پارامتر صورت‌بندی می‌شود. فرضیه‌های تحقیقی غالبا راهنمای محقق در تدوین فرض خلاف هستند. به عبارت دیگر فرض خلاف غالبا منطبق بر فرضیه‌های تحقیقی است، به این معنی که فرض خلاف بیان‌کننده انتظار پژوهشگر درباره نتایج تحقیق است و معمولا این انتظار بر اساس مدارک آزمایشی و یا تجربه کاری پژوهشگر کسب شده است.

فرض خلاف، بیانی است که پژوهشگر آرزو می‌کند درباره آن پژوهش کند. فرض صفر و خلاف باید ناسازگار باشند، به این معنی که نباید به هیچ شکل یا طریقی با هم تداخل داشته باشند.

در خصوص آزمون فرضیات، معمولا محقق دو فرضیه صفر و یک را در نظر می‌گیرد. بدین شکل که بعد از تحلیل داده‌ها فرضا با نرم افزار SPSS و با کمک آزمون ضریب همبستگی پیرسون، باید به خروجی نرم افزار و میزان .Sig آن نگاه کند. اگر این میزان کمتر از 5 درصد بود بدین معنا است که فرض صفر رد شده و فرض یک تایید می‌شود یعنی اگر یک را جواب مثبت و صفر را جواب منفی در نظر بگیریم در این صورت نتیجه این آزمون مثبت خواهد بود. اگر این عدد از 05/0 بزرگتر بود یعنی فرضیه یک رد می‌شود یا نتیجه آزمون منفی است.

توجه داشته باشید که در علوم انسانی، محقق هیچ وقت فرضیه‌ای را اثبات نمی‌کند بلکه فرضیات تایید یا رد می‌شوند چرا که فرضیه که ممکن است در یک جامعه تایید شود ممکن است در جامعه  دیگر رد شود. بنابراین استفاده از  واژه‌ی «اثبات» در اینجا صحیح نیست و فقط به رد یا تایید پرداخته می‌شود. بحث تحلیل داده‌ها بسیار طولانی و مفصل است و تحلیل نتایج با توجه به نوع آزمون‌های مورد استفاده و نوع فرضیات با هم متفاوت خواهند بود.

و در ادامه برای روشن تر شدن مطلب بهتر است با مفاهیم سطح اطمینان و سطح معناداری آشنایی مختصری داشته باشیم.

سطح معناداری

سطح معناداری که به آن ارزش p یا p-value گفته می‌شود که در گزارش‌های آماری در SPSS به صورت Sig.value نمایش داده می‌شود، میزان یا معیاری است که به عنوان پایه معناداری شناخته می‌شود و همچنین به عنوان خطای نوع اول هم معروف است. این میزان در تحقیقات علوم انسانی 5% در نظر گرفته می‌شود و در علوم پزشکی 1% تعیین می‌گردد.

اگر نتایج بررسی تفاوت یا رابطه متغیرها کمتر از 5% باشد، می‌گوییم احتمال شانسی بودن این تفاوت یا رابطه خیلی کم است و می‌توان نتیجه گرفت که تفاوت یا رابطه مورد نظر معنادار است و اگر بیشتر از 5% باشد، پس احتمال شانسی بودن نتیجه بسیار است و رابطه یا تفاوت متغیرها معنادار نیست.

سطح اطمینان

در زمان تخمین اطلاعات آماری دو روش وجود دارد: روش اول استفاده از تخمین نقطه‌ای است. مثلا وقتی می‌گوییم که میانگین قد ایرانی‌ها 1/70 سانتیمتر است، کاملا معلوم است که احتمال واقعی بودن این مقدار خیلی کم است. اما تخمین نقطه ای بهترین حدسی است که در چنین وضعیتی می‌توان زد هرچند معلوم نیست که این برآورد تا چه حد صحیح است.

استفاده از سطح اطمینان به ما کمک می‌کند که حدسی در مورد جامعه بزنیم و میزانی از خطا را برای حدسمان در نظر بگیریم. علاوه بر این، سطح اطمینان اجازه می‌دهد که ما برای حدسمان یک دامنه ای از مقادیر احتمالی را در نظر بگیریم، نه اینکه مثل برآورد نقطه ای فقط یک اندازه مشخص مثل میانگین قد را ملاک تصمیم گیری قرار دهیم.

نحوه نگارش فصل 4 پایان نامه شامل موارد بسیاری است که در مرحله پشتیبانی است به عنوانی این فصل ویترین کاری است که شما می خواهید نشان دهید. هر چه بهتر نوشته شود زحمات شما بیشتر به چشم می آید. در این مطلب سعی کردیم تمام مطالب را برای شما شرح دهیم تا نگارش بهتری را داشته باشید اما اگر چنانچه نیاز به مشورت گرفتن از افراد متخصص را دارید می توانید از طریق ارتباطی که در سایت آمار پیشرو در قسمت مشاوره آماری رایگان است استفاده کنید و شوالات خود را از متخصصین مجرب بپرسید.

همانطور که بیان شد اهمیت نحوه نوشتن فصل 4 پایان نامه این است که اگر مناسب نباشد ممکن است کل پروژه را زیر سوال ببرد.اما بخشی از این نگارش خوب به کیفیت استفاده از ابزار های آماری و روش های آماری بر می گردد. برای آشنایی بیشتر می توانید به بلاگ آمار پیشرو مراجعه کرده و هنمچنین برای با خبر شدن از مطالبی که در آینده منتشر خواهد شد می توانید صفحه اینستاگرامی آمار پیشرو را در اینستاگرام دنبال کنید.

یکی از خدماتی که شرکت های آماری ارائه می دهند نگارش فصل چهارم پایان نامه است. یکی از خدمات شرکت های آماری تجزیه و تحلیل پایان نامه است. علاوه بر این امر برخی شرکت ها به نگارش فصل چهارم نیز می پردازند. شما می توانید با خدمات شرکت آمار پیشرو در قسمت تحلیل آماری پایان نامه با spss و تحلیل آماری پایان نامه با استفاده از مدلسازی معادلات ساختاری استفاده کنید. همچنین جهت ثبت سفارش برای تدوین پایان نامه می توانید با تکمیل فرم در این صفحه سفارش خود را ثبت نمایید.

نحوه نوشتن فصل چهارم پایان نامه چگونه است؟

فصل چهارم شامل موارد بسیاری است که در مرحله پشتیبانی است به عنوانی این فصل ویترین کاری است که شما می خواهید نشان دهید. فصل چهارم براساس بخش‌های زیر نوشته می‌شود:
1- مقدمه
2- توصیف و تجزیه و تحلیل داده‌ها
3- آزمون فرضیات یا طرح سوالات و پاسخگویی به آنها

تجزیه و تحلیل داده‌ها شامل چه مواردی می‌شود؟

1- مرتب کردن و تنظیم داده‌ها
2- نتایج تحلیل داده‌ها

مراحل تنظیم داده‌ها چیست؟

خلاصه سازی داده‌ها
کدگذاری داده‌ها
نمایش داده‌ها

انواع تجزیه و تحلیل داده‌ها چیست؟

1- تجزیه و تحلیل کمی
2- تجزیه و تحلیل کیفی

سطح معناداری یعنی چه؟

میزان یا معیاری است که به عنوان پایه معناداری شناخته می‌شود و معمولا اگر نتایج بررسی تفاوت یا رابطه متغیرها کمتر از 5% باشد، می‌گوییم احتمال شانسی بودن این تفاوت یا رابطه خیلی کم است و می‌توان نتیجه گرفت که تفاوت یا رابطه مورد نظر معنادار است.

سطح اطمینان یعنی چه؟

سطح اطمینان اجازه می‌دهد که ما برای حدسمان یک دامنه ای از مقادیر احتمالی را در نظر بگیریم، نه اینکه مثل برآورد نقطه ای فقط یک اندازه مشخص مثل میانگین قد را ملاک تصمیم گیری قرار دهیم.

آگوست 25, 2020 1 دیدگاه
0 فیس‌بوکتوییترپینترستایمیل
Experimental-design
آمار پیشرفته

طرح آزمایشات کاملا تصادفی +جدول تجزیه واریانس

توسط لادن عباس نیا آگوست 4, 2020
نوشته شده توسط لادن عباس نیا

[block id=”breadcrumb”]

طرح آزمایشات یکی از مباحث تخصصی آماری است که آن را در بخش های عملیاتی که برای آزمایش اجرا می شود. طرح آزمایشات کشاورزی یکی از مهم ترین مباحث در  این طرح ها است. در این مطلب ابتدا تعریف هایی را ارائه می دهیم و سپس به روشی کاملا کاربردی مراحل آن را اجرا می کنیم.در انتها 3 نوع از پر کاربرد ترین طرح ها را به صورت تفصیلی توضیح می دهیم.

طرح آزمایشات چیست؟

طرح آزمایشات الگوهای ابداع شده‌ای هستند که برای انجام آزمایشات مقایسه‌ای مورد استفاده قرار می‌گیرند. آزمایش در اینجا به کلیه عملیاتی اطلاق می‌شود که برای رد یا قبول یا تکمیل فرضیه‌ای بکار می‌روند. وجه تمایز یک آزمایش مقایسه‌ای و یک آزمایش مطلق در این است که در آزمایش مقایسه‌ای دو یا چند مورد مقایسه می‌شوند، در حالی که در آزمایش مطلق، بررسی فقط روی یک ماده (مثلا یک واکنش شیمیایی) انجام می‌گیرد. طرح آزمایشات اغلب از آزمایش‌های مقایسه‌ای صحبت می‌شود که نمونه‌ای از آن در مثال زیر آورده شده است. آزمایش مقایسه عملکرد چهار واریته ذرت (A، B،  Cو D) را در نظر بگیرید:

Eperimental-design-table

تیمار (Treatment)

در طرح آزمایشات هر یک از عواملی را که برای مطالعه اثر آن‌ها بر روی یک صفت یا صفات مختلف در یک آزمایش مورد مقایسه قرار می‌گیرند تیمار می‌گویند. مثلا اگر مقادیر مختلف کود بر روی عملکرد ذرت مقایسه شوند هر مقدار کود یک تیمار است. در مثال بالا هر واریته ذرت یک تیمار است. در مثال دیگر فرض کنید می‌خواهیم ببینیم که آیا انواع مختلف لاستیک (A، B،  Cو D) از نظر میزان ساییدگی بعد از طی مسافت 20000 مایل با هم تفاوت دارند یا نه؟. در این مثال نوع لاستیک تیمار است.

در طرح آزمایشات کشاورزی زمان‌های مختلف آبیاری، فاصله ردیف‌های کشت، سموم حشره کش و رژیم‌های غذایی دام و غیره می‌توانند به عنوان تیمار  وارد شوند. بدیهی است که تیمار محدود به کشاورزی نیست و در هر نوع پژوهش علمی اعم از زیستی، دامپزشکی، یا پزشکی به کار می‎‌رود.

ماده آزمایشی (Experimental material)

مقایسه تیمارها در طرح آزمایشات به کمک وسیله یا موجودی انجام می‌گیرد. موجود یا وسیله مورد نظر را ماده آزمایشی می‌نامند. مثلا برای مقایسه چند واریته ذرت بایستی آن‌ها در مزرعه‌ای کاشته شوند. خاک در اینجا ماده آزمایشی می‌باشد. برای مقایسه اثر چند نوع رژیم غذایی در یک نژاد دام، ماده آزمایشی نژاد دام خواهد بود.

واحد آزمایشی (کرت یا پلات)

واحد آزمایشی کوچکترین قسمت از ماده آزمایشی است که در آن یک تیمار در یک تکرار تحت آزمایش قرار دارد. لغت کرت (پلات) در آزمایشات مزرعه‌ای به عنوان واحد آزمایشی به کار می‌رود. در آزمایش‌های دامی، یک راس دام یا مجموعه‌ی چند دام می‌تواند یک واحد آزمایشی تلقی شود.

بلوک

به گروهی از واحدهای آزمایشی با تیمارهای مختلف که تحت شرایط مشابهی تشکیل شده باشد بلوک اطلاق می‌شود. اگر در گروه مربوط به بلوک، کلیه تیمارهای مورد آزمایش وجود داشته باشند آن را بلوک کامل و اگر در تشکیل بلوک فقط عده‌ای از تیمارها شرکت داشته باشند آن را بلوک ناقص می‌نامند.

در آزمایش مقایسه ساییدگی انواع لاستیک‌ها بلوک می‌تواند نوع خودرو، موقعیت قرار گرفتن لاستیک‌ها روی خودرو یا نوع راننده باشد. هر عملیاتی در مورد تیمارهای متعلق به یک بلوک باید به صورت مشابه انجام گیرد. به عنوان مثال زمینی که یک بلوک اشغال می‌کند باید حداکثر یکنواختی ممکن را داشته باشد. برای توضیح بیشتر لازم است آزمایش مقایسه ساییدگی انواع لاستیک‌ها را بیشتر تشریح کنیم:

فرض کنید در این آزمایش موقعیت قرارگیری لاستیک‌ها (جلو راست، جلو چپ، عقب راست و عقب چپ) به عنوان بلوک و نوع لاستیک (A، B،  Cو D) به عنوان تیمار در نظر گرفته شود.

Eperimental-design-example1

همان‌طور که در طرح فوق مشاهده می‌شود واحدهای مورد آزمایش ما در سطح هر بلوک به صورت تصادفی پخش شده‌اند. در واقع تمام تیمارها در هر بلوک فقط یک‌بار مشاهده شده‌اند.

Eperimental-design-example1-1

چنانچه بلوک را در نظر نگیریم و به صورت ردیفی به چینش تیمارها نگاه کنیم می‌بینیم که انواع مختلف لاستیک به صورت کاملا تصادفی پخش نشده‌اند و به عنوان مثال در ردیف دوم لاستیک نوع C دو بار در موقعیت‌های جلو راست و جلو چپ تکرار شده است. در واقع بلوک محدودیت در تصادفی کردن ماست و واحدهای مورد آزمایش حتما باید داخل هر سطح از بلوک به صورت تصادفی پخش شوند نه هر سطح از تیمار. همچنین محدودیت در مقایسه داریم.

یعنی حق نداریم هر مشاهده‌ای را یا هر سطح تیماری را با سطح تیمار دیگری از 2 سطح متفاوت از بلوک‌ها مقایسه کنیم. مثلا لاستیکی که در جلوی ماشین (راست یا چپ) قرار گرفته نسبت به لاستیکی که در عقب ماشین (راست یا چپ) قرار گرفته، قطعا میزان ساییدگی بیشتری دارد. بنابراین اگر بخواهیم لاستیک نوع A و نوع B را با هم مقایسه کنیم، باید هر دو در یک موقعیت (بلوک) باشند.

انواع تغییرات طرح آزمایشات

پیش از اجرای یک آزمایش باید طرحی تهیه گردد. در این طرح نه فقط تیمارها یا روش‌های مشاهده و اندازه‌گیری مورد توجه قرار می‌گیرند بلکه نکاتی نیز رعایت می‌شوند که بدون آن‌ نتایج حاصله نامفهوم خواهند بود و چه بسا این نتایج، مربوط به عوامل نامعلومی باشند و به تیمارها نسبت داده شوند. به طور کلی یک طرح آزمایشی خوب طرحی است که در آن بتوان دو نوع تغییرات یا پراکندگی زیر را از هم تفکیک کرد:

  1. تغییرات قابل کنترل یا سیستماتیک
  2. تغییرات غیر قابل کنترل یا تصادفی

عوامل قابل کنترل که منجر به تغییرات قابل کنترل می‌شوند عبارتند از:

  • عواملی که مطالعه آن‌ها هدف آزمایش است مانند تیمارها
  • عواملی شناخته شده دیگری که می‌توانند روی نتایج تاثیر داشته باشند، ولی طوری در آزمایش کنترل می‌گردند که بتوان اثر آن‌ها را به هنگام قضاوت در روی نتایج محاسبه کرد مانند بلوک.

عوامل غیرقابل کنترلی که تغییرات تصادفی از آن‌ها ناشی می‌گردند به عوامل تصادفی موسوم هستند. این تغییرات از 3 دسته زیر تشکیل می‌شوند:

  • تغییرات مربوط به محیط مثل عوامل آب و هوایی، عوامل مرتبط با خاک و موجودات خاکزی
  • تغییرات مربوط به موجود زنده مثل صفات فیزیولوژیک، مرفولوژیک و شیمیایی که عملکرد و کیفیت محصول نبات یا دام به آن‌ها بستگی دارد و نوسانات زیادی را نشان می‌دهند.
  • تغییرات مربوط به مجریان طرح مانند مجری مبتدی یا بی‌طرف نبودن مجری

این عوامل نمونه‌ای از عوامل غیرقابل کنترل هستند که خطای آزمایشی از این قبیل عوامل ناشی می‌شوند.

خطای آزمایشی و جلوگیری از آن در طرح آزمایشات

از مطالعه بندهای فوق نتیجه می‌گیریم که هر آزمایش باید با کمال دقت طراحی و اجرا شود تا نتایج حاصل از آن معتبر باشد. لکن هر قدر آزمایش با دقت و مراقبت صحیح انجام گیرد باز هم پراکندگی‌هایی وجود خواهند داشت که به علت عدم تساوی اثر عوامل غیر قابل کنترل در واحدهای آزمایشی پیدا شده‌اند. این پراکندگی‌ها را خطای آزمایشی می‌گویند. بایستی سعی گردد در حد امکان از مقدار خطاها کاسته شود تا دقت و حساسیت آزمایش بیشتر باشد. یکی از ارکان مهمی که می تواند خطای آزمایش را کم کند طرح آزمایشات است. خطای یک آزمایش بایستی دارای توزیع نرمال با میانگین صفر و واریانس ثابت باشد. برای کاهش خطای آزمایشی می‌توان از راه‌های زیر استفاده کرد:

  • مواد آزمایشی همگن یا مشابه انتخاب شود.
  • تکرارهای آزمایش متناسب اختیار شوند. تکرار بدین معنی است که یک تیمار چند بار تکرار بشود و نقش آن عبارت است از برآورد خطای آزمایشی و مقایسه هر چه دقیق‌تر اثر تیمارها. اصولا دقت یک آزمایش، بنا به عقیده اکثر مولفین و محققین، به تعداد تکرار بستگی دارد. هر قدر تعداد تکرار زیادتر باشد دقت آزمایش بیشتر می‌شود ولی در هر آزمایش حد متوسطی برای تعداد تکرار وجود دارد که اگر از این حد تجاوز نماید دقت آزمایش نه تنها به همان اندازه افزایش نمی‌یابد بلکه اضافه نمودن تکرار سبب افزایش هزینه و غیریکنواختی ماده آزمایشی و به طور غیرمستقیم زیاد شدن خطای آزمایشی می‌گردد. به تجربه ثابت شده است که در اکثر طرح‌های آزمایشی تعداد تکرار بسته به حساسیت آزمایش بین 4 تا 8 انتخاب می‌شود. یعنی در صورت حساس بودن آزمایش تعداد تکرار را تا 8 افزایش و با کاهش حساسیت آزمایش تکرار را تا 4 تقلیل می‌دهند.
  • طرح مناسب به کار برده شود. انتخاب طرح‌هایی مناسب که بتوان منابع تغییر را در آن‌ها کنترل کرد. یک طرح باید طوری انتخاب شود که آزمایش با مشکلات اجرایی اغراق آمیز از جمله تکرار بیش از حد مواجه نشود که این خود می‌تواند خطای آزمایشی را بزرگ کند و مهم‌تر این‌که طرح امکان دهد تا برآورد صحیحی از خطای آزمایشی به‌دست آید. در طرح‌های بلوک‌دار با ایجاد محدودیت در تصادفی کردن، اغلب خطای آزمایشی کاهش می‌یابد.

انواع طرح‌ آزمایشات پایه

به‌طور کلی طرح‌های آزمایشی را می‌توان به دو دسته تقسیم کرد:

  1. طرح‌هایی که در آن‌ها فقط اثر یک منبع پراکندگی مورد بررسی است. در این دسته تنها یک طرح وجود دارد و آن طرح “کاملا تصادفی شده” می‌باشد.
  2. طرح‌هایی که در آن‌ها بیش از یک منبع پراکندگی مورد بررسی است. طرح‌های زیادی در این دسته قرار می‌گیرند که مهمترین آن‌ها طرح‌های “بلوکی کاملا تصادفی شده” و “مربع لاتین” هستند.

این 2 طرح پایه و اساس طرح آزمایشات را تشکیل می‌دهند و بقیه طرح‌ها به طور مستقیم یا غیرمستقیم از این 2 طرح منشاء می‌گیرند. انتخاب یکی از این 2 طرح پایه یا اصلی برای انجام یک آزمایش با توجه به نکات زیر انجام می‌گیرد:

  • تعداد و نوع تیمار
  • تعداد تکرار (میزان دقت آزمایش)
  • کیفیت غیریکنواختی یا یکنواختی ماده آزمایشی

طرح آزمایشات کاملا تصادفی شده

همان‌طور که از اسم طرح پیداست، تیمارها به طور کاملا تصادفی در کرت‌ها یا واحدهای آزمایشی قرار می‌گیرند به طوری که هر یک از کرت‌ها شانس مساوی برای دریافت هر یک از تیمارها دارند. این طرح موقعی مورد استفاده قرار می‌گیرد که واحدهای آزمایشی یکنواخت باشند. بدین جهت برای آزمایش‌های گلخانه‌ای و آزمایشگاهی و اطاق‌های رشد خیلی مناسب است، چون در آن‌ها اثرات محیط می‌تواند یکنواخت باشد. اما در آزمایشات مزرعه‌ای به علت عدم یکنواختی قطعات مختلف خاک چندان قابل استفاده نیست.

یکی از خصوصیات این طرح آزمایشات قابل انعطاف بودن آن است یعنی محقق می‌تواند هر تعداد تیمار و برای هر تیمار هر تعداد تکرار را انتخاب نماید در صورتی که در دو طرح اصلی دیگر، تکرارهای مساوی برای تیمارهای مختلف لازم است. اگر تعداد تکرار برای تمام تیمارها یکسان باشد طرح را “متعادل” و در غیر این صورت طرح را “نامتعادل” می‌نامند.

همچنین از بین رفتن یک یا چند واحد آزمایشی، حتی یک تیمار، تجزیه آماری را با مشکل مواجه نمی‌سازد. مهمترین عیب این طرح آن است که دقت آن بخصوص در آزمایش‌های بزرگ زیاد نیست یعنی خطای آزمایشی در اینجا شامل همه منابع تغییر بین واحدها می‌شود به جز پراکندگی مربوط به اثرات تیمارها. بنابراین خطای آزمایشی غالبا بزرگ است. لازم است بار دیگر آزمایش مقایسه ساییدگی انواع لاستیک‌ها را در نظر بگیریم:

چنانچه 16 لاستیک از 4 نوع A، B،  Cو D را به صورت کاملا تصادفی و بی توجه به نوع خودرو روی 4 خودرو نصب کنیم و از طرح کاملا تصادفی شده استفاده کنیم متوسط آن مقدار ساییدگی لاستیک را که مربوط به خودروهاست و می‌تواند در نتیجه اثر بگذارد را حذف کرده‌ایم.

Eperimental-design-example1-2

در این طرح خطای آزمایشی صرفا خطای تصادفی نیست و می‌تواند ناشی از تغییرات بین خودروها هم باشد. همان‌طور که می‌بینید مثلا لاستیک نوع B هیچ‌گاه روی خودروی اول نصب نشده است و یا لاستیک نوع A روی خودرو سوم امتحان نشده است. بنابراین طرحی لازم است که در آن هر نوع لاستیک یک‌بار روی هر نوع خودرو امتحان شود.

مدل ریاضی طرح کاملا تصادفی شده به این صورت است که فقط یک عامل پراکندگی یعنی اثر تیمارها کنترل می‌شود لذا تغییرات کل به دو قسمت مربوط به اثر تیمار و خطای آزمایشی تقسیم خواهد شد. این وضعیت با یک فرمول ساده ریاضی  و شکل زیر قابل تعریف است:

Eperimental-design-example1-3

در این فرمول Xij نشان دهنده هر مشاهده (هر داده) در آزمایش، µ میانگین کل جمعیتی که از طریق نمونه‌ها با فرض صفر مورد بررسی قرار می‌گیرد، τj اثر هر تیمار و ԑij اثر خطای آزمایشی است. به گفته دیگر اجزا تشکیل دهنده هر داده در این طرح، میانگین جمعیت، اثر تیمار و اثر عوامل ناشناخته می‌باشند. کمیت‌های فوق به غیر از µ می‌توانند مثبت یا منفی باشند. همچنین از فرمول بالا چنین برمی‌آید که اگر بین تیمارها اختلافی وجود نداشته باشد و خطای آزمایشی به صفر تقلیل پیدا بکند مقدار هر مشاهده برابر میانگین کل جمعیت خواهد بود یعنی تمام داده‌ها برابر µ خواهند بود.

جدول تجریه و تحلیل واریانس طرح کاملا تصادفی

جهت تجزیه واریانس طرح کاملا تصادفی شده از جدول زیر استفاده می‌شود که در آن فرمول‌های تعریفی و عملی مجموع مربعات، درجات آزادی و میانگین مربعات برای منابع تغییر در این طرح آمده است.

Eperimental-design-table-anova

حال برای روشن‌تر شدن موضوع به حل یک مثال می‌پردازیم. جدول زیر نقشه و داده‌های حاصل از مطالعه اثر گوگرد در کاهش بیماری گال پوستی سیب زمینی را نشان می‌دهد. هدف از بکار بردن گوگرد افزایش اسیدیته خاک می‌باشد چون پاتوژن این بیماری در خاک اسیدی چندان فعال نیست. علاوه بر کرت‌های بدون گوگرد که به عنوان شاهد در نظر گرفته شده‌اند، تاثیر 3 مقدار از گوگرد در بهار و 3 مقدار از آن در پاییز با مقادیر 336، 673 و 1345 کیلوگرم در هکتار مورد مقایسه بوده است.

بدین ترتیب روی هم رفته 7 تیمار در آزمایش بکار رفته است. صفت مورد اندازه‌گیری درصد آلودگی در غده‌های سیب زمینی است. در واقع در هر واحد آزمایشی 100 غده به تصادف مورد مشاهده قرار گرفته و درصد آلودگی آن (از صفر تا 100) یادداشت و معدل‌گیری به عمل آمده است.

Eperimental-design-example2-1

داده‌ها را بر حسب تیمارها می‌توان به شرح زیر تنظیم کرد و محاسبات جدول تجزیه واریانس را انجام داد:

Eperimental-design-example2-2

برای محاسبه تغییرات مربوط به منابع مختلف کافی است که فرمول‌های ستون سوم و چهارم جدول تجزیه واریانس بکار برده شوند و اولین گام محاسبه SSها است.

Eperimental-design-ss

بدین ترتیب طبق عملیات فوق مجموع مربعات و درجات آزادی برای کل، تیمار و خطای آزمایشی محاسبه گردید. حال میانگین مربعات از تقسیم SSها به درجات آزادی مربوطه به‌دست می‌آید. پس:

Eperimental-design-Average-ss

محاسبات فوق بر اساس فرضیه H0 انجام گرفته‌اند. یعنی فرض شده است که تیمارها نمونه‌های مختلف از یک جمعیت و تکرارها تعداد افراد مشاهده شده در هر نمونه‌اند. عدم وجود اختلاف معنی‌دار بین آن‌ها نشان خواهد داد که نمونه‌های فرضی انتخاب شده می‌توانند متعلق به یک جمعیت آماری باشند. یعنی تغییرات بین تیمارها و داخل تیمارها ناشی از تصادف است.

اگر حاصل تقسیم میانگین مربعات تیمارها بر میانگین مربعات خطا کوچکتر از عدد F جدول فیشر – اسندکور باشد، چنین تصور می‌شود که منشا دو واریانس از یک جمعیت واحد بوده و بین آن‌ها اختلاف معنی‌دار نیست و اختلاف مشاهده شده تصادفی است. بر عکس اگر این نسبت بزرگتر از F جدول باشد گفته می‌شود اختلاف بین دو واریانس تصادفی نیست بلکه معنی‌دار است یعنی دو واریانس نمی‌توانند از یک جمعیت تنها به‌دست آمده باشند.

بنابراین معنی‌دار بودن F نشان می‌دهد که بین تیمارها اختلاف قابل ملاحظه و غیرتصادفی وجود دارد. طرز استفاده از جداول F بدین ترتیب است که درجه آزادی تیمار را در ردیف بالای جدول و درجه آزادی خطا را در ستون اول دست چپ پیدا کرده و عددی که از تقاطع این دو درجه آزادی به‌دست می‌آید F جدول خواهد بود و حداکثر نسبت ناشی از تغییرات تصادفی در طرح آزمایشات را نشان می‌دهد.

Eperimental-design-f

چون F محاسبه شده در این طرح برابر 91/4 و بزرگتر از 57/2 و 81/3 می‌باشد، نتیجه می‌گیریم که با اطمینان 99 درصد تیمارهای بکار برده شده از نظر تاثیر بر روی کاهش بیماری گال پوستی سیب زمینی اختلاف معنی‌داری داشته‌اند.

جدول تجزیه واریانس طرح کاملا تصادفی شده مربوط به تاثیر گوگرد در کاهش بیماری گال پوستی سیب زمینی در ادامه آمده است:

Eperimental-design-table-anova1

طرح آزمایشات کاملا تصادفی شده

در آزمایش‌های مزرعه‌ای مشاهده می‌شود که کرت‌های نزدیک به هم برای صفات اندازه‌گیری شده تشابه بیشتری نسبت به کرت‌های دور از هم نشان می‌دهند. همچنین در آزمایش‌های دامی، حیوانات هم وزن و هم سن واکنش نزدیکتری نسبت به یک عامل نشان می‌دهند. بدین سبب پیش از انجام آزمایش باید یک گروهبندی برای واحدهای آزمایشی انجام گیرد تا بتوان پراکندگی‌هایی که در اثر تفاوت‌های بین گروه‌ها ایجاد می‌شود محاسبه و از خطای آزمایشی جدا کرد و بدینوسیله خطای آزمایشی را تقلیل و دقت آزمایش را بالا برد.

به عنوان مثال در آزمایش مقایسه ساییدگی انواع لاستیک‌ها باید به عواملی مثل نوع خودرو و موقعیت قرارگیری لاستیک توجه کرد. در این موارد به جای استفاده از طرح کاملا تصادفی شده از طرح بلوکی کاملا تصادفی شده استفاده می‌کنند. در طرح‌های بلوکی کاملا تصادفی شده واحدهای آزمایشی طوری گروه‌بندی می‌شوند که تعداد واحدها در هر دسته مساوی تعداد تیمارها باشد.

در این صورت هر گروه را یک بلوک کامل می‌گویند (یا یک تکرار). در هر بلوک سعی می‌شود که واحدهای آزمایشی مربوطه حتی‌الامکان مشابه باشند و تمام عملیات و مشاهدات به طور یکنواخت در آن‌ها عملی گردد. در این شرایط فرض بر این است که اختلاف مشاهده شده بین واحدهای آزمایشی در هر بلوک عمدتا ناشی از خود تیمارها می‌باشد.

در این طرح آزمایشات به علت تشکیل بلوک‌های کامل، دقت آزمایش بیشتر از طرح کاملا تصادفی شده است. از سوی دیگر مانند طرح مربع لاتین که بعدا شرح داده خواهد شد از نظر تعداد تیمار و تعداد تکرار محدودیت زیادی ندارد. بنابراین در انواع تحقیقات بیشترین مورد استعمال را پیدا کرده است. هرگاه بنا به دلایلی یک بلوک یا یک تیمار از آزمایش حذف شود اشکالی در تجزیه آماری روی نخواهد داد. هرگاه یک یا چند واحد آزمایشی از بین برود می‌توان با روش ویژه‌ای آن‌ها را برآورد کرد. تنها عیب آن در این است که اگر ماده آزمایشی در دو جهت غیر یکنواخت باشد، این طرح کارایی لازم را نخواهد داشت.

در این طرح آزمایشات دو عامل قابل کنترل وجود دارد. یکی از این دو عامل تیمار و دیگری بلوک است که در طرح کاملا تصادفی شده وجود نداشت. هدف از وارد کردن عامل بلوک در یک طرح، کاهش خطای آزمایشی است. یعنی با حذف تغییرات مربوط به بلوک‌ها مقایسه‌ی تیمارها، که هدف اصلی در هر آزمایش است، به طور دقیق انجام می‌گیرد. با توجه به مطالب فوق مدل ریاضی طرح به صورت زیر تعریف می‌شود:

Eperimental-design-Mathematical-model

یعنی مقدار عددی هر مشاهده (Xij) از مجموع اثرات بلوک (δi)، تیمار (τj)، خطای آزمایشی (ԑij) و میانگین کل جمعیت (µ) حاصل می‌شود. لذا در طرح‌های بلوکی کاملا تصادفی شده، مقدار کل تغییرات را می‌توان به تغییرات مربوط به تیمارها، بلوک‌ها و خطای آزمایشی تقسیم کرد.

در این طرح باید یک واریانس اضافی مربوط به بلوک‌ها نیز محاسبه شود. جهت تجزیه واریانس از جدول زیر استفاده می‌شود که در آن فرمول‌های تعریفی و عملی مجموع مربعات، درجات آزادی و میانگین مربعات برای منابع مختلف تغییر در این طرح آمده است.

Eperimental-design-table-anova2

در یک آزمایش 5 رقم یونجه در یک طرح آزمایشات بلوکی کاملا تصادفی شده از نظر مقدار علوفه تولیدی مورد مقایسه قرار گرفته‌اند و تعداد بلوک یا تکرار 4 بوده است. هر واحد آزمایشی حدود 15 متر مربع بود. نتایج حاصل از یکی از برداشت‌ها در جدول زیر آمده است:

Eperimental-design-table-example3

در ادامه محاسبات مربوط به مجموع مربعات، درجات آزادی و میانگین مربعات برای منابع مختلف تغییر در این طرح آمده است:

Eperimental-design-formulate
Eperimental-design-formulate2
Eperimental-design-formulate3

چون FT محاسبه شده در این طرح آزمایشات برابر 12/12 و بزرگتر از 26/3 و 41/5 می‌باشد، نتیجه می‌گیریم که با اطمینان 99 درصد تیمارهای بکار برده شده از نظر مقدار علوفه توليدي اختلاف معنی‌داری داشته‌اند. همچنين FR محاسبه شده در این طرح برابر 88/6 و بزرگتر از 49/3 و 95/5 می‌باشد، نتیجه می‌گیریم که با اطمینان 99 درصد بلوک‌هاي بکار برده شده از نظر مقدار علوفه توليدي اختلاف معنی‌داری داشته‌اند.

هنگامي که بين بلوک‌ها اختلاف معني‌دار پيدا مي‌شود بدين معني است که يا بلوک‌بندي صحيح انجام شده است و يا عمليات اجرايي در بلوک‌هاي مختلف يکسان نبوده است. در نهايت جدول تجزیه واریانس طرح بلوکي کاملا تصادفی شده مربوط به مقدار علوفه توليدي در ادامه آمده است:

طرح آزمایشات مربع لاتين

اين طرح هنگامي به کار مي‌رود که روند غيريکنواختي در ماده آزمايشي در دو جهت باشد. براي مثال در زميني که حاصلخيزي آن در دو جهت غربي – شرقي و جنوبي – شمالي تغيير مي‌کند مي‌توان با به کار بردن اين طرح آزمایشات اختلاف در حاصلخيزي را در دو جهت محاسبه و از خطاي آزمايشي کم کرد. بدين منظور تيمارها در داخل بلوک‌ها به دو صورت مختلف يعني به صورت رديف‌ها و ستون‌ها گروه‌بندي مي‌شوند. در آزمايشات دامي گروه‌بندي دوطرفه بر اساس عواملي مانند سن، وزن، جنس دام و … صورت مي‌گيرد.

طرح به اين دليل مربع لاتين نام گرفته‌است که در آن تعداد تکرار معادل تيمارهاي آزمايشي است. به عنوان مثال براي مربع لاتيني که در آن 4 تيمار و 4 تکرار به کار رفته باشد، 4 ستون عمودي تشکيل داده مي‌شود که معمولا با اعداد لاتين I، II، III و IV نشان داده مي‌شوند و 4 رديف افقي وجود خواهد داشت که با اعداد 1، 2، 3 و 4 مشخص مي‌شوند.

در اين طرح چون هر تيمار در هر رديف و هر ستون وجود دارد لذا تغييرات مربوط به بلوک رديفي و بلوک ستوني از تغييرات بين تيمارها جدا مي‌شود و بنابراين تيمار را مي‌توان به‌طور دقيق‌تر مقايسه کرد. از اين رو در اين طرح خطاي آزمايشي کوچکتر و دقت آزمايش بيشتر مي‌شود.

عيب عمده طرح مربع لاتين در اين است که در آن تعداد تکرار مساوي تعداد تيمار بوده و محدوديتي از نظر تعداد تيمار به وجود مي‌آيد. چون در صورت زياد بودن تيمار عمليات تکنيکي مشکل‌تر مي‌شود، لذا اگر تعداد تيمار بيشتر از 8 باشد معمولا از اين طرح استفاده نمي‌شود. از سوي ديگر درجه آزادي خطاي آزمايشي در اين طرح در مقايسه با طرح‌هاي قبلي مشابه کوچکتر است.

در طرح آزمایشات مربع لاتين کرت‌ها طوري تنظيم مي‌شوند که دو منبع قابل کنترل به وجود مي‌آيد. به يکي از اين منابع بلوک‌هاي ستوني و به ديگري بلوک‌هاي رديفي اطلاق مي‌شود. بدين ترتيب اجزا تغييرات کل به صورت زير نمايش داده مي‌شود:

Eperimental-design-example1-4

که در آن Xii`j هر مشاهده، µ ميانگين کل جمعيت، δi اثر رديف، δi` اثر ستون، τj اثر تيمار و ԑii`j اثر خطاي آزمايشي مي‌باشد.

جهت تجزیه واریانس از جدول زیر استفاده می‌شود که در آن فرمول‌های تعریفی و عملی مجموع مربعات، درجات آزادی و میانگین مربعات برای منابع مختلف تغییر در این طرح آمده است:

Eperimental-design-table-example4

یکی از اولین آزمایش‌های مربوط به طرح مربع لاتین توسط فیشر انجام گرفته است. در این آزمایش اثر 5 کود مختلف به همراه شاهد روی واریته‌ای از سیب‌زمینی مورد ارزیابی قرار گرفته است. این 5 کود و شاهد (6 تیمار) با حروف زیر کدگذاری شده‌اند:

A = شاهد (بدون کود)

B = فسفات با دوز معمولی

C = فسفات با دوز دو برابر

D = ازت

E = فسفات + ازت

F =  فسفات با دوز دو برابر + ازت

 جدول زیر عملکرد حاصل از هر واحد آزمایشی را بر حسب کیلوگرم و نقشه طرح نشان می‌دهد. در این جدول جمع مربوط به ردیف‌ها و ستون‌ها نیز دیده می‌شود.

Eperimental-design-table-example5

حال برای به‌دست آوردن جمع مربوط به تیمارها باید جدول دیگری بر حسب تیمارها تنظیم کرد:

Eperimental-design-table-example6

در ادامه محاسبات مربوط به مجموع مربعات، درجات آزادی و میانگین مربعات برای منابع مختلف تغییر و جدول تجزیه واریانس در این طرح آمده است:

Eperimental-design-formulate-ss

حال می‌توان SSها را در جدول تجزیه واریانس وارد و مقادیر MS و F را مستقیما در جدول محاسبه کرد.

Eperimental-design-table-ss-ms

مطابق جدول تجزیه واریانس بین ستون‌ها در سطح معنی‌داری 05/0 و بین ردیف‌ها و تیمارها در سطح معنی‌داری 01/0 اختلاف معنی‌داری وجود دارد.

طرح آزمایشات یکی از تخصصی ترین مطالب آماری است،حال که با نحوه محاسبات مربوط به تجزیه واریانس 3 طرح پایه کاملا تصادفی شده، بلوکی کاملا تصادفی شده و مربع لاتین آشنا شدیم، انجام محاسبات با نرم‌افزارهایی مثل SPSS یا SAS آسان‌تر خواهد بود. خاطر نشان می‌کنم برای حصول نتایج قابل استناد، در ابتدا باید نقشه طرح به درستی تعریف شود. تیم آمار پیشرو آماده ارائه مشاوره رایگان در زمینه انتخاب طرح  متناسب با نوع آزمایش و فرضیات مورد بررسی، انجام نمونه‌برداری، تهیه نقشه طرح، ورود داده به نرم‌افزار و انجام محاسبات مربوطه با نرم‌افزارهایی مثل R، SPSS، SAS و… خواهد بود.برای ارتباط و دریافت مشاوره می توانید به بخش مشاوره آماری رایگان مراجعه کنید.

چنانچه علاقمند به مباحث آماری هستید و می خواهید با نرم افزار های حوزه طرح آزمایشات آشنا شوید می توانید از جدید ترین مطالبی که بر روی سایت منتشر خواهد شد با دنبال کردن صفحه اینستاگرام آمار پیشرو با خبر شوید.

قطعا اجرا طرح آزمایشات نیاز به متخصصان خبره و با تجربه دارد. شما نیز اگر پروژه ای دارید که می خواهید با کیفیت مناسب، در مدت زمان کوتاه و با قیمت مناسب اجرا شود، می توانید در قسمت ثبت سفارش اجرای این پروژه ها را به متخصصان علم آمار در شرکت آمار پیشرو بسپارید.

طرح آزمایشات چیست؟

طرح آزمایشات الگوهای ابداع شده‌ای هستند که برای انجام آزمایشات مقایسه‌ای مورد استفاده قرار می‌گیرند.

تیمار در طرح آزمایشات چیست؟

در طرح آزمایشات هر یک از عواملی را که برای مطالعه اثر آن‌ها بر روی یک صفت یا صفات مختلف در یک آزمایش مورد مقایسه قرار می‌گیرند تیمار می‌گویند.

ماده آزمایشی در طرح آزمایشات چیست؟

مقایسه تیمارها در طرح آزمایشات به کمک وسیله یا موجودی انجام می‌گیرد. موجود یا وسیله مورد نظر را ماده آزمایشی می‌نامند.

واحد آزمایشی در طرح آزمایشات چیست؟

واحد آزمایشی کوچکترین قسمت از ماده آزمایشی است که در آن یک تیمار در یک تکرار تحت آزمایش قرار دارد.

بلوک در طرح آزمایشات چیست؟

به گروهی از واحدهای آزمایشی با تیمارهای مختلف که تحت شرایط مشابهی تشکیل شده باشد بلوک اطلاق می‌شود.

طرح آزمایشات مربع لاتین چیست؟

اين طرح هنگامي به کار مي‌رود که روند غيريکنواختي در ماده آزمايشي در دو جهت باشد.

آگوست 4, 2020 20 نظرات
0 فیس‌بوکتوییترپینترستایمیل
Confirmatory-factor-analysis
آمار پیشرفته

تحلیل عاملی تاییدی چیست؟-3 مدل و شرایط و مراحل انجام آن

توسط لادن عباس نیا جولای 30, 2020
نوشته شده توسط لادن عباس نیا

تحلیل عاملی تاییدی یکی از انواع تحلیل عاملی است. در ابتدا یک شرح مختصری درباره کاربرد تحلیل عاملی تاییدی خواهیم داشت و سپس به تعریف خود تحلیل عاملی روش ها و مراحل آن خواهیم پرداخت.

در بسیاری از پژوهش‌ها به دنبال طراحی ابزاری هستیم که با استفاده از آن ابعاد مختلف عوامل مورد بررسی را شناسایی کنیم. این ابزار می‌تواند پرسشنامه‌ای باشد که با استفاده از آن بتوانیم در جامعه مورد بررسی، میزان اثرگذاری آن ابعاد و عوامل را تعیین کنیم.

به عنوان مثال فرض کنید پژوهشی انجام شده که هدف آن بررسی اثر شاخص‌های بیماری، استرس، سرسختی، تناسب اندام و تمرینات بدنی بر مشکلات سلامت است. بر اساس تحقیقات پیشین به نظر می‌رسد که می‌توان این شاخص‌ها را در دو عامل سلامت بدنی و سلامت ذهنی تقسیم‌بندی کرد. بدین صورت که سلامت بدنی تبیین‌کننده تناسب اندام، تمرینات بدنی و بیماری است و سلامت ذهنی تبیین‌کننده سرسختی و استرس است.

برای آن که در این پژوهش بتوانیم وجود این دو عامل (سلامت بدنی و سلامت ذهنی) را در تبیین شاخص‌های شناسایی‌شده (بیماری، استرس، سرسختی، تناسب اندام و تمرینات بدنی) بسنجیم، می‌توانیم از تحلیل عاملی تأییدی کمک بگیریم.

تحلیل عاملی چیست؟

تحلیل عاملی راهی برای کار با حجم زیادی از داده‌ها و خلاصه کردن آن‌ها به مجموعه‌ای کوچک‌تر از داده‌ها است که مدیریت کردن آن‌ها راحت‌تر و قابل فهم‌تر است. تحلیل عاملی روشی برای پیدا کردن الگوهای پنهان است و نشان می‌دهد الگوها چه‌طور هم‌پوشانی دارند و کدام ویژگی‌ها در الگوهای چندگانه مشاهده می‌شوند. از این روش هم چنین برای ایجاد مجموعه‌ای از متغیرهای مشابه استفاده می‌شود که به آن‌ها ابعاد می‌گویند. تحلیل عاملی تأییدی می‌تواند در طراحی ابزار سنجش در زمینه‌های مختلفی از جمله سنجش رضایت، رویکردهای سلامت و پرسشنامه خدمات مشتری استفاده شود.

عامل (factor) به مجموعه‌ای از داده‌های مشاهده‌شده اطلاق می‌شود که به طور مستقیم قابل اندازه‌گیری نیستند ولی دارای الگوهای مشابهی در مقادیر خود هستند. عامل‌ها توسط متغیرهای آشکار اندازه‌گیری می‌شوند . عامل‌ها بر حسب بارهای عاملی یا مقدار پراکندگی در داده‌ها را که می‌توانند تبیین کنند مورد بررسی قرار می‌گیرند.

برای آشنایی بیشتر با متغیر های آشکار و پنهان به مدل سازی معادلات ساختاری با لیزرل مراجعه کنید

تحلیل عاملی به دو نوع کلی تقسیم می‌شود:

1- تحلیل عاملی اکتشافی: در حالتی است که پژوهشگر هیچ ایده‌ای درباره ساختار داده‌ها یا تعداد ابعاد متغیرهای خود ندارد.

2- تحلیل عاملی تاییدی: برای حالتی است که ایده‌ای خاص درباره این که ساختارها داده‌ها چگونه است و تعداد ابعاد حاضر در متغیرها داریم. در این حالت، تحلیل عاملی تأییدی برای بررسی و تأیید ایده ما به کار می‌رود.

به عنوان مثال، مدل تحلیل عاملی مثالی که در ابتدای مطلب ذکر شد، به صورت زیر است:

model-Confirmatory-factor-analysis

تفاوت‌های عمده بین تحلیل عاملی اکتشافی و تحلیل عاملی تاییدی عبارت است از:

تحلیل عاملی تاییدی نیازمند تعیین موارد زیر است:

  • یک مدل از پیش تعیین شده،
  • تعدادی عامل،
  • کدام شاخص به کدام عامل تعلق دارد،
  • مدلی که توسط تئوری یا تحقیق قبلی پشتیبانی شود،

در حالی که تحلیل عامل اکتشافی:

  • به تعیین ساختار عاملی مدل کمک می‌کند،
  • حداکثر مقدار واریانس را تبیین می‌کند.

تحلیل عاملی تاییدی چیست؟

همان طور که گفته شد، تحلیل عاملی تاییدی یکی از دو نوع اصلی تحلیل عاملی است. تحلیل عاملی تاییدی که به طور مخفف CFA نامیده می‌شود، تعیین توانایی یک مدل از پیش تعیین‌شده در برازش به داده‌ها را سنجش می‌کند. به عبارت دیگر، این نوع از تحلیل عاملی بررسی می‌کند آیا عامل‌هایی که پژوهشگر در نظر گرفته است، واقعاً واریانس‌های متغیرهای مشاهده‌شده را مطابق با الگوی تعیین‌شده تبیین می‌کنند یا خیر.

در تحلیل عاملی تاییدی، پژوهشگر از دانش خود در زمینه تئوری، پژوهش تجربی و یا هر دو استفاده می‌کند و الگوی روابط بین متغیرهای پنهان و متغیرهای آشکار را فرضیه‌بندی می‌کند و سپس با استفاده از تحلیل‌های آماری آن‌ها را آزمون می‌کند.

مدل تحلیل عاملی مرتبه یک، مرتبه دو و مراتب بالاتر

در یک مدل تحلیل عاملی تاییدی، اگر پراکندگی متغیرهای آشکار تنها تحت تأثیر یک سطح ازمتغیرهای پنهان (عامل‌های مرتبه یک) باشد، آن مدل تحت عنوان مدل تحلیل عاملی مرتبه یک شناخته می‌شود. اما گاهی در عین این که در اغلب مدل‌ها بین عامل‌های مرتبه اول، همبستگی وجود دارد، می‌توان یک مدل مرتبه دو را در نظر گرفت که همبستگی بین عامل‌های مرتبه یک را تبیین می‌کند. این مدل‌های تحلیل عاملی تاییدی که شامل عامل‌های مرتبه دوم یا حتی از مراتب بالاتر هستند، مدل‌های سلسله‌مراتبی نیز نامیده می‌شوند.

در یک مدل مرتبه دو یا بالاتر، عامل‌های مرتبه یک هم چنین توسط عامل‌های مرتبه بالاتر تبیین می‌شوند. در شکل زیر، مثالی از مدل مرتبه دو به نمایش درآمده است. این مدل شامل سه عامل مرتبه یک (با اسامی F1، F2 و F3) است که به ترتیب متغیرهای آشکارM1 تا M3، M4 تا M6 و M7 تا M10 را تبیین می‌کند، و از طرفی عامل‌های F1 و F2 توسط عامل مرتبه دوی F4 تبیین شده‌اند.

Second-order-model-Confirmatory-factor-analysis

مراحل تحلیل عاملی تأییدی به طور خلاصه عبارت است:

  • مرور ادبیات که برای کمک به انتخاب یک مدل مناسب انجام می‌شود. در صورتی که نتوانیم به مدل خاصی بر اساس ادبیات تحقیق دست پیدا کنیم، باید از تحلیل عاملی اکتشافی برای تعیین مدل کمک بگیریم.
  • تعریف مدل که بر اساس نتایج مرور ادبیات یا تحلیل عاملی اکتشافی انجام می‌شود.
  • جمع‌آوری داده‌ها.
  • تحلیل اولیه که برای بررسی مسائلی از قبیل وجود داده‌های گم‌شده، همبستگی چندگانه و داده‌های پرت انجام می‌شود.
  • براورد پارامترهای جامعه.
  • تعیین مناسب بودن مدل که شامل بررسی برازش مدل و اصلاح مدل می‌شود. چنان چه مدل قابل پذیرش نباشد، باید انجام تحلیل عاملی اکتشافی را مد نظر قرار داد.
  • ارائه و تفسیر نتایج.

چنان چه مدل قابل پذیرش نباشد، باید انجام تحلیل عاملی اکتشافی را مدنظر قرار داد.

تحلیل عاملی تأییدی یک نوع خاص از مدل‌یابی معادلات ساختاری است. در تحلیل عاملی تأییدی، بارهای عاملی به صورت ضرایب رگرسیونی از عامل به متغیرهای آشکار در نظر گرفته می‌شوند. تحلیل عاملی تأییدی با تعریف مدل اندازه‌گیری صورت می‌پذیرد .به منظور آشنایی بیشتر با روش های مختلف مدل سازی معادلات ساختاری می توانید بر روی تصاویر زیر کلیک کنید.

[row]

[col span=”6″ span__sm=”12″]

[ux_image id=”4374″ image_hover=”zoom” link=”https://amarpishro.com/advanced-statistics/sem-with-pls/” target=”_blank” rel=”مدل سازی معادلات ساختاری با نرم افزار PLS”]

[/col]
[col span=”6″ span__sm=”12″]

[ux_image id=”4466″ image_hover=”zoom” link=”https://amarpishro.com/advanced-statistics/sem-with-amos/” target=”_blank” rel=”مدل سازی معادلات ساختاری با نرم افزار آموس AMOS”]

[/col]

[/row]

شرایط انجام تحلیل عاملی تاییدی

برای آن که تحلیل عاملی تاییدی با کیفیتی مطلوب قابل انجام باشد، لازم است شرایط زیر رعایت شوند:

  • داده‌های هر شخص یا شیء در نمونه با داده‌های اشخاص و اشیای دیگر مستقل باشد.
  • حجم نمونه به اندازه کافی بزرگ باشد (حداقل 5 تا 20 مورد به ازای هر پارامتر حاضر در نمونه).
  • داده‌ها دارای توزیع نرمال چندمتغیره باشند.
  • داده‌های پرت در مجموعه داده‌ها حضور نداشته باشند.
  • مجموعه داده‌ها فاقد داده‌های گمشده باشد.
  • هر متغیر پنهان، با حداقل 4 متغیر نشانگر تببین شده باشد.
  • برای متغیرهای پنهان، متغیر آشکار مشترک تعریف نشده باشد. به عنوان مثال اگر سوالات 1 تا 4 پرسشنامه مربوط به متغیر پنهان A هستند دیگر نمی‌توانند به متغیر پنهان دیگری تعلق بگیرند.

انجام تحلیل عاملی تاییدی

امروزه به دلیل پیچیدگی بسیار زیاد محاسبات، انجام تحلیل عاملی تاییدی فقط از طریق نرم‌افزارهای رایانه‌ای قابل انجام است. معمولاً نرم‌افزارهایی که قابلیت مدل‌یابی معادلات ساختاری را دارند، قابلیت انجام تحلیل عاملی را نیز دارند. از جمله این نرم‌افزارها عبارت است: نرم‌افزار Amos ،، نرم‌افزار LISREL ، نرم‌افزار SAS و نرم‌افزار MPLUS.

تحلیل عاملی تاییدی یکی از مباحث آمار پیشرفته است که در حین اجرا ممکن است شما به مشکلاتی برخورد کنید، این نگرانی شما درست است و ما برای پوشش دادن آن پل ارتباطی را ایجاد کردیم تا شما به صورت رایگان از ارتباط با متخصص های آماری استفاده کنید. برای استفاده از این خدمات می توانید در قسمت مشاوره آماری رایگان پرسش های خود را مطرح کنید.

اگر علاقه مند به مباحث آماری هستید ما با بهره گیری از تجارب و مهارت افراد متخصص مطالبی را در اختیار شما قرار خواهیم داد. برای اطلاع بهتر از این مطالب شما میتوانید صفحه اینستاگرام آمار پیشرو را دنبال کنید و از مطالب جدیدی که در سایت قرار می دهیم استفاده کنید.

تحلیل عاملی تاییدی یکی از خدماتی است که شرکت های آماری در اختیار مشتریان خود قرار می دهند. نکاتی که در اجرای تحلیل عاملی مهم است تخصص و تجربه مجری است شما برای دریافت این خدمات می توانید به صفحه خدمات تحلیل آماری مراجعه کنید و اگر پروژه ای را مد نظر داشتید در قسمت ثبت سفارش فرم مورد نظر را تکمیل کنید.

تحلیل عاملی چیست؟

تحلیل عاملی راهی برای کار با حجم زیادی از داده‌ها و خلاصه کردن آن‌ها به مجموعه‌ای کوچک‌تر از داده‌ها است. همچنین روشی برای پیدا کردن الگوهای پنهان است.

تحلیل عاملی تاییدی چیست؟

تحلیل عاملی تاییدی، تعیین توانایی یک مدل از پیش تعیین‌شده در برازش به داده‌ها را سنجش می‌کند.

تحلیل عاملی تاییدی مرتبه اول چیست؟

اگر پراکندگی متغیرهای آشکار تنها تحت تأثیر یک سطح ازمتغیرهای پنهان (عامل‌های مرتبه یک) باشد، آن مدل تحت عنوان مدل تحلیل عاملی مرتبه یک شناخته می‌شود.

تحلیل عاملی تاییدی مرتبه دو یا بالاتر چیست؟

در یک مدل مرتبه دو یا بالاتر، عامل‌های مرتبه یک هم چنین توسط عامل‌های مرتبه بالاتر تبیین می‌شوند.

جولای 30, 2020 2 نظرات
0 فیس‌بوکتوییترپینترستایمیل
پست های جدیدتر
پست های قدیمی تر

شرکت

  • آمار پیشرو – مرجع تحلیل و آموزش آماری
  • آموزش آمار
  • بازاریابی داده محور
  • بلاگ
  • بوت کمپ هوش مصنوعی آمار پیشرو
  • تحلیل آماری پایان نامه با استفاده از مدلسازی معادلات ساختاری
  • تحلیل آماری؛ تعریف، مراحل، سفارش
  • تسویه حساب
  • تماس با آمار پیشرو
  • ثبت سفارش خدمات آماری آمار پیشرو
  • حساب کاربری
  • خدمات هوش مصنوعی
  • داده کاوی
  • درباره آمار پیشرو
  • دوره جامع آموزش SPSS از مقدماتی تا پیشرفته
  • رسید خرید
  • سبد خرید
  • سوالات متداول
  • فروشگاه
  • فعال سازی دوره
  • مشاوره آماری
  • مقررات خرید و استفاده از خدمات آمار پیشرو
  • منشور اخلاقی آمار پیشرو
  • پیگیری سفارش
  • فیسبوک
  • توییتر

@2021 - All Right Reserved. Designed and Developed by پنسی دیزاین


بازگشت به بالا
آمار پیشرو
  • خانه
  • خدمات فردی
    • تحلیل آماری؛ تعریف، مراحل، سفارش
    • مشاوره آماری
    • آموزش آمار
  • خدمات سازمانی
    • خدمات هوش مصنوعی
    • داده کاوی
    • بازاریابی داده محور
  • بلاگ
  • درباره آمار پیشرو
  • تماس با آمار پیشرو
  • فروشگاه

سبد خرید

بستن

هیچ محصولی در سبد خرید نیست.

بستن