تخفیف بی سابقه برای خرید کامل‌ترین و کاربردی‌ترین دوره آموزش Spss رو از دست نده!

تحلیل خوشه ای و روش های خوشه بندی با 3 مثال

تحلیل-خوشه-ای

مفهوم تحلیل خوشه ای چیست؟

طبقه بندی پدیده‌ها یا متغیرها از ارکان هر علمی است و تحلیل خوشه‌ای یکی از روش‌های تحلیل چند متغیره است که برای طبقه بندی عناصر یا متغیرها و تشخیص گروه‌های همگن به کار می‌رود. تحلیل خوشه‌ای طبقه بندی عناصر یا متغیرها به گروه‌های همگن است به گونه‌ای که عناصر (یا متغیرهای) هر گروه دارای بیشترین شباهت با هم و کمترین شباهت با عناصر (یا متغیرهای) گروه‌های دیگر باشند.

تحلیل خوشه‌ای روش‌های مختلفی دارد که یکی از پرکاربردترین آنها روش خوشه بندی سلسله مراتبی است. طبقه بندی متغیرها را نیز به خوبی می‌توان با تحلیل عامل انجام داد. از این رو در اینجا فقط به معرفی تحلیل خوشه‌ای سلسله مراتبی عناصر می‌پردازیم.در ادامه تحلیل خوشه‌ای سلسله مراتبی عناصر را به اختصار تحلیل خوشه‌ای می‌خوانیم.

تحلیل خوشه‌ای اساساً برای طبقه بندی عناصر بر حسب متغیر یا متغیرهای کمّی است چه متغیرهای کیفی فی‌النفسه دارای طبقه بندی هستند مانند جنسیت با دو طبقه زن و مرد یا نگرش‌های اجتماعی با دو طبقه موافق و مخالف یا سه طبقه موافق و بی‌نظر و مخالف یا پنج طبقه کاملاً موافق و موافق و بی‌نظر و مخالف و کاملاً مخالف.

اما وقتی با متغیر کمّی سروکار داریم مجموعه‌ای (دامنه‌ای) از مقادیر داریم که برای طبقه بندی آن یا در واقع طبقه بندی عناصر بر حسب آن ناگزیریم از روشی برای طبقه بندی استفاده کنیم. به طور کلی متغیر کمّی پیوسته را می‌توان هم به طور ساده طبقه بندی کرد و هم با تحلیل خوشه‌ای.

متغیر کمّی پیوسته را می‌توان به طور ساده به سه صورت طبقه بندی کرد: طبقه بندی هم‌عرض و طبقه بندی هم‌فراوانی و طبقه بندی متوازن. در اینجا با یک مثال ساده (مثال1) این طبقه بندی‌ها را به اختصار توضیح می‌دهیم و با طبقه بندی تحلیل خوشه‌ای مقایسه می‌کنیم.

تعریف 1: تحلیل خوشه‌ای سلسله مراتبی عناصر طبقه بندی عناصر برحسب همگنی در یک یا چند متغیر کمّی است.

در طبقه بندی هم‌عرض عرض همه طبقات را یکسان می‌گیریم. به این منظور ابتدا مقادیر عناصر (داده‌ها) را به ترتیب نزولی مرتب می‌کنیم و دامنه مقادیر (تفاضل مقدار حداکثر از حداقل به اضافه یک) را پیدا کرده و سپس آن را بر تعداد مورد نظر تقسیم می‌کنیم تا عرض طبقات با نماد W به دست آید:

فرمول-تحلیل-خوشه-ای

که در آن Max مقدار حداکثر است وMin  مقدار حداقل توزیع متغیر کمّی وU  واحد گرد شدن مقادیر وK  تعداد طبقات که بنابر مقتضیات تحقیق تعیین می‌شود.

مثال 1: داده‌های جدول 1 توزیع امید به زندگی زنان (X1) و درصد جمعیت باسواد (X2) نمونه‌ای از کشورهای جهان در سال 1995 است. عرض طبقات در طبقه بندی هم‌عرض متغیر X1 (امید زندگی زنان) مثال 1 چنانچه تعداد طبقات را 3 در نظر بگیریم عبارت است از:

Cluster-analysis-formula
table1
جدول 1 توزیع امید زندگی زنان و باسوادی بخشی از کشورهای جهان در 1995

عرض طبقات در طبقه بندی هم‌عرض امید زندگی زنان 13/3 است که اگر به واحد گرد شدن مقادیر متغیر که در اینجا یکان است گرد کنیم 13 می‌شود. با طبقه بندی متغیر X1 (امید زندگی زنان) به سه طبقه هم عرض جدول 2 می‌رسیم.

table2
جدول 2 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی هم عرض)

تحلیل خوشه ای یکی از خدمات تحلیل آماری است که شما می توانید آن را خود انجام دهید یا به یک شرکت آماری بسپارید، اگر وقت لازم را دارید می توانید در این مطلب کامل یک مثال ملمویس را حل کردیم که کامل آموزش ببینید، اما چنانچه وقت کافی ندارید می توانید این نوع تحلیلرا به عنوان یکی از خدمات تحلیل آماری با تعریف پروژه آماری از بخش خدمات سفارش دهید.

طبقه بندی هم فراوانی و کاربرد آن در تحلیل خوشه ای

در طبقه بندی هم‌فراوانی، فراوانی همه طبقات را یکسان می‌گیریم. به این منظور کل فراوانی را به تعداد طبقات مورد نظر تقسیم می‌کنیم تا به طبقاتی برسیم که فراوانی آنها یکسان (F) است:

The-classification-formula-abundant

که در آن N کل فراوانی است و K تعداد طبقات که بنابر مقتضیات تحقیق تعیین می‌شود.

به عنوان مثال فراوانی یکسان طبقات در طبقه بندی هم‌فراوانی متغیر X1 (امید زندگی زنان) جدول 1 چنانچه تعداد طبقات را 3 در نظر بگیریم عبارت است از:

The-classification-formula-abundant1

سپس براساس داده‌هایی که به ترتیب نزولی مرتب شده است حدود هر طبقه را براساس مقدار حداقل و حداکثر موردهای آن طبقه تشکیل می‌دهیم مانند جدول3.

table3
جدول 3 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی هم‌فراوانی)

طبقه بندی متوازن موازنه‌ای بین دو نوع طبقه بندی پیشین است. در طبقه بندی متوازن سعی می‌شود موازنه‌ای بین عرض طبقات و فراوانی آنها برقرار گردد. طبقه بندی طوری صورت می‌گیرد که حتی‌الامکان نه عرض طبقات ناهمگون شود و نه فراوانی آنها.

خوشه بندی چیست و چه کاربردی دارد؟

اما خوشه بندی نوعی طبقه بندی پیشرفته است که براساس میزان تشابه و همگنی عنصرها در یک یا چند متغیر صورت می‌گیرد.

به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 برحسب متغیر X1  (امید زندگی زنان) به سه طبقه به طبقات همگن جدول 4 می‌رسیم: طبقه اول شامل چهار کشور اوگاندا و افغانستان و تانزانیا و زامبیاست که امید زندگی زنان آنها بین 43 الی 45 سال است. طبقه دوم شامل شش کشور کنیا و نیجریه و سنگان و کامرون و لیبی و عراق است که امید زندگی زنان آنها بین 55 تا 68 سال است. طبقه سوم شامل دو کشور سوئد و فرانسه است که امید زندگی زنان آنها بین 81 الی 82 سال است.

table4
جدول 4 توزیع امید زندگی زنان کشورهای مثال 1 (طبقه‌بندی با تحلیل خوشه‌ای)

تکنیک خوشه بندی نه تنها متغیر کمّی را بر حسب همگنی عناصر به تعداد طبقات مورد نظر محقق تقسیم می‌کند بلکه متغیر را در سطوح مختلف همگنی عناصر به صورت یک نمودار درختی طبقه بندی می‌کند. این امر به محقق کمک می‌کند تا با مقایسه طبقه بندی سطوح مختلف مناسبترین طبقه بندی را انتخاب کند.

Clustering-tree-diagram
شکل 1 نمودار درختی خوشه بندی کشورها بر حسب امید به زندگی زنان مثال 1

به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 برحسب متغیر X1 (امید زندگی زنان) نمودار درختی شکل 1 ارائه می‌شود. همانطور که در این شکل می‌بینیم در سطح اول هریک از کشورها (عناصر) یک طبقه مجزا را تشکیل می‌دهد.

در سطح دوم کشورها به چهار طبقه تقسیم شده‌اند: طبقه اول شامل چهار کشور سنگال و کامرون و نیجریه و کنیا و طبقه دوم شامل دو کشور عراق و لیبی و طبقه سوم شامل چهار کشور تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه چهارم شامل دو کشور سوئد و فرانسه.

در سطح سوم کشورها به سه طبقه تقسیم شده‌اند: طبقه اول شامل شش کشور سنگال و کامرون و نیجریه و کنیا و عراق و لیبی و طبقه دوم شامل چهار کشور تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه سوم شامل دو کشور سوئد و فرانسه.

در سطح چهارم کشورها به دو طبقه تقسیم شده‌اند: طبقه اول شامل ده کشور سنگال و کامرون و نیجریه و کنیا و عراق و لیبی و تانزانیا و زامبیا و افغانستان و اوگاندا و طبقه دوم شامل دو کشور سوئد و فرانسه.

به این ترتیب در این مثال می‌بینیم براساس میزان تشابه کشورها (عناصر) در متغیر امید زندگی زنان سه نوع طبقه بندی ارائه شده است (چهار طبقه‌ای و سه طبقه‌ای و دو طبقه‌ای) و ما می‌توانیم با مقایسه آنها و وجه نظری و مفهومی آنها طبقه بندی مناسب را انتخاب کنیم.

اما مزیت اصلی و عمده تکنیک خوشه بندی این است که با این تکنیک می‌توان عناصر را برحسب ترکیبی از چند متغیر نیز طبقه بندی کرد. به عنوان مثال با خوشه بندی عناصر (کشورهای) مثال 1 بر حسب دو متغیر X1 (امید زندگی زنان) و X2 (درصد جمعیت باسواد) نمودار درختی شکل 2 ارائه می‌شود. همانطور که در این شکل می‌بینیم طبقه بندی عناصر مثال 1 برحسب دو متغیر X1 و X2 با طبقه بندی آنها صرفاً برحسب متغیر X1 نسبتا متفاوت است.

Clustering-tree-diagram2
شکل 2 نمودار درختی خوشه بندی کشورها بر حسب دو متغیر امید به زندگی زنان و درصد جمعیت باسواد مثال 1

مراحل تحلیل خوشه‌ای

تحلیل خوشه‌ای شامل دو مرحله اصلی است: تعیین اندازه شباهت جفت جفت عناصر مورد تحلیل و سرانجام خوشه بندی عناصر براساس اندازه شباهت با استفاده از یکی از روش‌های خوشه بندی.

تعیین اندازه شباهت و ضرایب آن ها

در تحلیل خوشه‌ای طبقه بندی براساس اندازه شباهت عناصر صورت می‌گیرد. اندازه شباهت مقدار نزدیکی یا دوری عناصر نسبت به یکدیگر است که با دو دسته از ضرایب سنجیده می‌شود: یکی ضرایب عدم تشابه و دیگری ضرایب تشابه. ضرایب عدم تشابه مبتنی بر اندازه فاصله و دوری هر عنصر از عنصر دیگر است. معمولا برای تحلیل خوشه‌ای از این نوع ضرایب استفاده می‌شود. ضرایب تشابه هم مبتنی بر نزدیکی هر عنصر از عنصر دیگر است.

ضرایب عدم تشابه

ضرایب عدم تشابه انواع گوناگونی دارد که مهم ترین آنها عبارتند از مجذور فاصله اقلیدسی و فاصله اقلیدسی و فاصله بلوک شهر و فاصله چبایچوف.

مجذور فاصله اقلیدسی

مجذور فاصله اقلیدسی (با نماد eij2) دوعنصر در مجموعه‌ای از متغیرها عبارت است از مجموع مجذور تفاوت مقادیر دو عنصر در هریک از متغیرها:

The-squared-formula-of-the-Euclidean-distance

که در آن Xi مقدارعنصر i ام و Xj عنصر i ام در متغیر X است.        

به عنوان مثال مجذور فاصله اقلیدسی دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

2The-squared-formula-of-the-Euclidean-distance

یا مجذور فاصله اقلیدسی دو عنصر چهارم و پنجم (کشور زامبیا و کنیا) عبارت است از:

2The-squared-formula-of-the-Euclidean-distance3

دامنه مجذور فاصله اقلیدسی از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله اقلیدسی

فاصله اقلیدسی (با نماد eij) دوعنصر در مجموعه‌ای از متغیرها عبارت است از جذر مجموع مجذور تفاوت مقادیر دو عنصر در هریک از متغیرها:

Euclidean-distance-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر j ام در متغیرX است.

به عنوان مثال فاصله اقلیدسی دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Euclidean-distance-formula1

دامنه فاصله اقلیدسی هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله بلوک

فاصله بلوک شهر یا اختصاراً فاصله بلوک (با نماد blij) دو عنصر در مجموعه‌ای از متغیرها عبارت است از مجموع قدر مطلق تفاوت مقادیر دو عنصر در هریک از متغیرها:

1Block-spacing-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر jام در متغیر X است.

به عنوان مثال فاصله بلوک دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

2Block-spacing-formula

دامنه فاصله بلوک هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

فاصله چبایچوف

فاصله چبایچوف (با نماد chij) دوعنصر در مجموعه‌ای از متغیرها عبارت است از بزرگ ترین قدر مطلق تفاوت مقادیر دو عنصر در بین متغیرها:

Chebaychev-distance-formula

که در آن Xi مقدار عنصر i ام و Xj مقدار عنصر j ام در متغیر X است و max بزرگ‌ترین (حداکثر) تفاوت مقادیر دو عنصر در بین متغیرها.

به عنوان مثال فاصله چبایچوف دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Chebaychev-distance-formula1

دامنه فاصله چبایخوف هم از صفر (شباهت کامل) تا بینهایت (عدم تشابه کامل) است.

ضرایب تشابه

ضرایب عدم تشابه انواع گوناگونی دارد که در اینجا یکی از مهم ترین آنها را که کسینوس بردار مقادیر است معرفی می‌کنیم.

کسینوس بردار مقادیر

کسینوس بردار مقادیر (با نماد coij) دو عنصر در مجموعه‌ای از متغیرها عبارت است از مجموع حاصل‌ضرب مقادیر دو عنصر در هریک از متغیرها تقسیم بر جذر مجموع مجذور مقدار یک عنصر در متغیرها ضرب در مجموع مجذور مقدار عنصر دیگر در متغیرها:

Cosine-vector-values

که در آن Xi مقدار i ام و Xj مقدار عنصرj ام در متغیر X است.

به عنوان مثال کسینوس بردار مقادیر دو عنصر اول و دوم (کشور اوگاندا و افغانستان) مثال 1 در دو متغیر امید زندگی (X1) و درصد جمعیت باسواد (X2) عبارت است از:

Cosine-vector-values1

دامنه مقادیر کسینوس بردار از 1- (عدم تشابه کامل) تا 1+ (تشابه کامل) است.

خوشه بندی عناصر آخرین مرحله تحلیل خوشه ای

خوشه بندی عناصر مرحله اصلی و نهایی تحلیل خوشه‌ای است. در این مرحله عناصر بر اساس شباهت‌شان به هم طبقه بندی می‌شوند. در خوشه بندی ابتدا همه عناصر خوشه‌های گوناگونی به حساب می‌آیند.

سپس دو خوشه‌ای که دارای کمترین فاصله (بیشترین شباهت) به هم هستند با هم ادغام می‌شوند و یک خوشه جدید تشکیل می‌دهند. باز در مرحله بعدی دو خوشه که دارای کمترین فاصله هستند با هم ادغام می‌شوند و خوشه جدید دیگری تشکیل می‌دهند. این ادغام دو خوشه در هر مرحله و تشکیل خوشه‌های بزرگ‌تر متوالیاً ادامه می‌یابد و سرانجام به ترکیب تمام خوشه‌ها و رسیدن به یک خوشه می‌رسد.

خوشه‌بندی نیز با روش‌های گوناگونی صورت می‌گیرد. در هر روش نیز برای اندازه شباهت عناصر می‌توان هر یک از ضرایب تشابه یا ضرایب عدم تشابه را به کار برد. با وجود این معمولاً ضریب مجذور فاصله اقلیدسی برای اندازه شباهت خوشه‌ها استفاده می‌شود.

مقایسه روش های خوشه بندی

رایج‌ترین روش‌های خوشه‌بندی عبارتند از متوسط گروهی و متوسط درون‌گروهی و تک اتصالی و تام اتصالی و وارد. در بین این روش‌ها روش خوشه‌بندی تک اتصالی خوشه‌بندی منقبض (نزدیک به هم) تولید می‌کند و روش خوشه‌بندی تام اتصالی خوشه‌بندی منبسط (دور از هم). اما روش خوشه‌بندی متوسط گروهی خوشه‌بندی متعادلی بین این دو تولید می‌کند. از این رو محققان بیشتر روش متوسط گروهی را به کار می‌برند. روش خوشه‌بندی وارد نیز بعد از روش متوسط گروهی پرکاربردترین روش خوشه‌بندی است.

روش متوسط گروهی

در روش متوسط گروهی که عنوان اختصاری روش جفت گروهی ناموزون با استفاده از متوسط حسابی(UPGMA) است و اتصال بین گروهی هم خوانده می‌شود در هر مرحله خوشه‌بندی فاصله بین جفت جفت خوشه‌ها بر اساس ضریب متوسط گروهی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب متوسط گروهی با نماد ga(i)(j) هم عبارت است از مجموع اندازه شباهت عناصر یک خوشه با عناصر خوشه دیگر تقسیم بر تعداد اندازه شباهت عناصر دو خوشه:

Group-intermediate-method

که در آن re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است و N(i)N(j) که حاصل‌ضرب تعداد عناصر خوشه (i) ام در تعداد عناصر خوشه (j) ام است تعداد اندازه شباهت عناصر دو خوشه است.

در ادامه عناصر مثال 2 را که برای سادگی محاسبات بخشی از کشورهای مثال 1 است با روش متوسط گروهی خوشه‌بندی می‌کنیم و اندازه شباهت عناصر را هم مجذور فاصله اقلیدسی عناصر می‌گیریم.

مثال 2: داده‌های جدول 5 توزیع امید زندگی زنان (X1) و درصد جمعیت باسواد (X2) نمونه‌ای از کشورهای جهان در سال 1995 است. جدول 6 هم ماتریس اندازه شباهت عناصر (کشورها) بر حسب دو متغیر مذکور است که مبتنی بر مجذور فاصله اقلیدسی است.

Life-expectancy-distribution
جدول 5 توزیع امید زندگی زنان و باسوادی بخشی از کشورهای جهان 1995

مرحله صفر در خوشه بندی

در ابتدای خوشه‌بندی که مرحله صفر خوانده می‌شود هر عنصر یک خوشه به حساب می‌آید. در این مرحله ضریب متوسط گروهی دو خوشه همان اندازه شباهت دو عنصر است. به عنوان مثال ضریب متوسط گروهی خوشه (1) با خوشه (2) بر مبنای مجذور فاصله اقلیدسی عناصر دو خوشه (جدول 6) عبارت است از:

Group-intermediate-method1
Similarity-size-matrix
جدول 6 ماتریس اندازه شباهت عناصر مثال 2
Cluster-distance-diagram
شکل 3 نمودار فاصله خوشه‌ها در مرحله صفر مثال 2

خوشه‌بندی مرحله صفرمثال 2 را می‌توان به صورت نمودار فاصله خوشه‌ها نشان داد (شکل3). جدول 7 هم ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی در مرحله صفر است که مانند ماتریس اندازه شباهت عناصر (جدول7) است.

Similarity-size-matrix1
جدول 7 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله صفر
مرحله یک

در مرحله یک با وارسی فاصله خوشه‌های مرحله صفر (جدول 7) می‌بینیم دو خوشه (3) و (4) دارای کمترین فاصله هستند. ضریب متوسط گروهی آنها 10 است که کمترین ضریب متوسط گروهی است. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 4).

1Cluster-distance-diagram
شکل 4 نمودار فاصله خوشه‌ها در مرحله 1 مثال 2

در این مرحله ضریب متوسط گروهی خوشه‌های مرحله قبل همان اندازه‌های قبلی است و فقط باید ضریب متوسط گروهی خوشه جدید (3و4) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط گروهی خوشه (1) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient2

و خوشه (2) با خوشه (3و4):

Group-average-coefficient21

و خوشه (5) با خوشه (3و4):

Group-average-coefficient31

و خوشه (6) با خوشه (3و4):

Group-average-coefficient4

حال ماتریس فاصله خوشه‌های مرحله یک را تشکیل می‌دهیم (جدول 8)

Similarity-size-matrix2
جدول 8 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 1

مرحله دو

در این مرحله با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 8) می‌بینیم دو خوشه (5) و خوشه (6) دارای کمترین ضریب متوسط گروهی هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 5).

1Cluster-distance-diagram1
شکل 5 نمودار فاصله خوشه‌ها در مرحله 2 مثال 2

در مرحله 2 هم ضریب متوسط گروهی خوشه‌های گروهی خوشه‌های مرحله قبل همان اندازه‌های قبلی است و فقط باید ضریب متوسط گروهی خوشه جدید (5 و6) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط گروهی خوشه (1) با خوشه (5 و6) با توجه به ماتریس اندازه شباهت عناصر(جدول 6) عبارت است از:

Group-average-coefficient44

و ضریب متوسط گروهی خوشه (2) با خوشه (5 و6):

Group-average-coefficient5

و ضریب متوسط گروهی خوشه (3 و4) با خوشه (5 و6):

Group-average-coefficient65

حال ماتریس فاصله خوشه‌های مرحله 2 را تشکیل می‌دهیم (جدول 9).

Similarity-size-matrix3
جدول 9 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 2

مرحله سه

در مرحله 3 با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 9) می‌بینیم دو خوشه (1) و (2) دارای کمترین فاصله خوشه‌ها (116) هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 6).

2Cluster-distance-diagram1
شکل 6 نمودار فاصله خوشه‌ها در مرحله 3 مثال 2

در این مرحله هم ضریب متوسط گروهی خوشه جدید (1و2) را با بقیه خوشه‌ها احتساب کنیم. ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient5

و خوشه (1و2) با خوشه (5 و6):

Group-average-coefficient6

حال ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 10).

Similarity-size-matrix4
جدول 10 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 3

مرحله چهار

در این مرحله هم با وارسی ماتریس فاصله خوشه‌های مرحله قبل (جدول 10) می‌بینیم دو خوشه (3و4) و (5و6) دارای کمترین ضریب متوسط گروهی (180) هستند. از این رو این دو خوشه را با هم ترکیب می‌کنیم (شکل 7).

2Cluster-distance-diagram13
شکل 7 نمودار فاصله خوشه‌ها در مرحله 4 مثال 2

در مرحله چهار فقط باید ضریب متوسط گروهی خوشه جدید (3و4و5و6) را با خوشه (1و2) را احتساب کنیم. ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4و5و6) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

Group-average-coefficient65

حال ماتریس فاصله خوشه‌های مرحله چهار را تشکیل می‌دهیم (جدول 11).

Similarity-size-matrix5
جدول 11 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط گروهی مرحله 4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3و4و5و6) و(1و2) که فاصله آن دو بر حسب ضریب متوسط گروهی 409/25 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد (شکل 8).

3Cluster-distance-diagram13
شکل 8 نمودار فاصله خوشه‌ها در مرحله 5 مثال 2

نمودار درختی متوسط گروهی

تمام مراحل خوشه‌بندی را می‌توان به طور مختصر در نمودار درختی نشان داد مانند شکل 9 که نمودار درختی خوشه‌بندی با روش متوسط گروهی مثال 2 است. در این نمودار درختی می‌بینیم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله (ضریب متوسط گروهی) 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 با هم ترکیب شده‌اند.

در مرحله 3 خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3و4) و خوشه (5و6) در فاصله 180 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3و4و5و6) و خوشه (1و2) در فاصله 409 با هم ترکیب شده‌اند.

این ارائه یکپارچه خوشه‌بندی روابط بین خوشه‌ها را به سهولت به ما نشان می‌دهد. به عنوان مثال نمودار درختی مثال 2 (شکل9) نشان ‌می‌دهد که عناصر خوشه (3و4) به هم نزدیک‌ترند تا عناصر خوشه (5و6). به بیان دیگر خوشه (3و4) همگن‌تر از خوشه (5و6) است. همینطور دو خوشه (3و4) و (5و6) همگن‌تر از خوشه (1و2) هستند. گذشته از این دو خوشه (3و4) و(5و6) به هم نزدیکترند تا به خوشه (1و2).

به این ترتیب نمودار درختی خوشه‌بندی به محقق کمک می‌کند تا با توجه به روابط خوشه‌ها و فاصله خوشه‌ها از بین سطوح مختلف طبقه‌بندی (خوشه‌بندی) آن سطحی را که مناسب‌تر می‌بیند انتخاب کند.

Clustering-tree-diagram3
شکل 9 نمودار درختی با روش ضریب متوسط گروهی مثال 2

روش متوسط درون‌گروهی

روش متوسط درون گروهی که اتصال درون‌گروهی نیز خوانده می‌شود مانند روش متوسط گروهی است با این تفاوت که اندازه شباهت عناصر درون خوشه‌ها نیز به حساب می‌آید. در این روش فاصله بین خوشه‌ها با ضریب متوسط درون‌گروهی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب متوسط درون‌گروهی با نماد wga(i)(j) عبارت است از حاصل‌جمع مجموع اندازه شباهت جفت‌جفت عناصر یک خوشه با مجموع اندازه شباهت جفت‌جفت عناصر خوشه دیگر با مجموع اندازه شباهت عناصر یک خوشه با عناصر خوشه دیگر تقسیم بر مجموع تعداد عناصر دو خوشه ضرب در مجموع تعداد عناصر دو خوشه منهای یک تقسیم بر دو:

wga

که در آن re(ih) اندازه شباهت عنصرi ام وh ام از خوشه (i) ام است. re(jk) هم اندازه شباهت عنصرj ام و k ام از خوشه (j) ام است. re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است. N(i) تعداد عناصر خوشه i ام است و N(j) هم تعداد عناصر خوشه (j) ام.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ضریب متوسط درون گروهی دو خوشه همان اندازه شباهت دو عنصر است. به عنوان مثال ضریب متوسط درون گروهی خوشه (1) با خوشه (2) بر مبنای مجذور فاصله اقلیدسی عناصر دو خوشه (جدول 6) عبارت است از:

wga1

مرحله یک

در این مرحله دو خوشه (3) و (4) که دارای کمترین فاصله ( کمترین ضریب متوسط درون گروهی) هستند با هم ترکیب می‌شوند.

در اینجا ضریب متوسط درون گروهی خوشه جدید (3و4) با خوشه (1) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga2

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (2):

wga3

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (5):

wga4

و ضریب متوسط درون گروهی خوشه (3و4) با خوشه (6):

wga5

حال ماتریس فاصله خوشه‌های مرحله یک را تشکیل می‌دهیم (جدول 12).

Similarity-size-matrix6
جدول 12 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله1

مرحله دو

در این مرحله هم دو خوشه (5) و(6) که دارای کمترین ضریب متوسط درون گروهی (25) هستند با هم ترکیب می‌شوند. حال ضریب متوسط درون گروهی خوشه جدید (5و6) را با بقیه خوشه‌ها احتساب کنیم.

ضریب متوسط درون گروهی خوشه (5و6) با خوشه (1) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga6

و ضریب متوسط درون گروهی خوشه (5و6) با خوشه (2):

wga7

و ضریب متوسط درون گروهی خوشه (5و6) با خوشه (3و4):

wga8

و ماتریس فاصله خوشه‌های مرحله دو را تشکیل می‌دهیم (جدول 13).

Similarity-size-matrix7
جدول 13 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله2

مرحله سه

در این مرحله دو خوشه (1) و(2) را که دارای کمترین ضریب متوسط گروهی (116) هستند با هم ترکیب می‌کنیم.

حال ضریب متوسط گروهی خوشه (1و2) با خوشه (3و4) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga10

و ضریب متوسط درون گروهی خوشه (1و2) با خوشه (5و6):

wga11

سپس ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 14).

Similarity-size-matrix8
جدول 14 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله 3

مرحله چهار

در این مرحله دو خوشه (3و4) و (5و6) را که دارای کمترین ضریب متوسط درون گروهی (125/83) هستند با هم ترکیب می‌کنیم.

حال ضریب متوسط درون گروهی خوشه (1و2) با خوشه (3و4و5و6) با توجه به ماتریس اندازه شباهت عناصر (جدول 6) عبارت است از:

wga12

سپس ماتریس فاصله خوشه‌های مرحله چهار را تشکیل می‌دهیم (جدول 15).

Similarity-size-matrix9
جدول 15 ماتریس فاصله خوشه‌ها بر حسب ضریب متوسط درون گروهی مرحله4

در این مرحله با ترکیب خوشه (3و4و5و6) و خوشه (1و2) که فاصله (ضریب متوسط درون گروهی آنها) 276/33 است به خوشه نهایی می‌رسیم که تمام عناصر را در برمی‌گیرد.

نمودار درختی ضریب متوسط درون گروهی

شکل 10 نمودار درختی خوشه‌بندی با روش ضریب متوسط درون گروهی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (1) و خوشه (2) در فاصله ضریب متوسط درون گروهی 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله ضریب متوسط درون گروهی 25 با هم ترکیب شده‌اند.

در مرحله 3 خوشه (1) و خوشه (2) در فاصله ضریب متوسط درون گروهی 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3و4) و خوشه (5و6) در فاصله ضریب متوسط درون گروهی 125/83 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3و4و5و6) و خوشه (1 و 2) در فاصله ضریب متوسط درون‌گروهی 276/33 با هم ترکیب شده‌اند.

Clustering-tree-diagram4
شکل 10 نمودار درختی با روش ضریب متوسط درون گروهی مثال 2

تحلیل خوشه ای با روش تک اتصالی

در روش خوشه‌بندی تک اتصالی که روش نزدیک‌ترین همجوار هم خوانده می‌شود فاصله بین خوشه‌ها بر اساس ضریب تک اتصالی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

در این روش خوشه‌بندی بر اساس بیشترین شباهت دو عنصر از دو خوشه صورت می‌گیرد. به بیان دیگر دو خوشه هنگامی با هم ترکیب می‌شوند که اندازه شباهت یک عنصر از یک خوشه با یک عنصر از خوشه دیگر از بزرگترین اندازه شباهت بین جفت عنصرهای بین‌خوشه‌ای برخوردار باشد.

به این ترتیب ضریب تک اتصالی با نماد sl(i)(j) در جایی که اندازه شباهت مبتنی بر ضریب شباهت است حداکثر اندازه شباهت جفت عنصر بین خوشه‌ای است:

sl1

و در جایی که اندازه شباهت مبتنی بر ضریب عدم شباهت است حداقل اندازه شباهت جفت عنصر این خوشه‌ای است:

sl2

که در آن re(i)(j) اندازه شباهت جفت عنصر بین خوشه‌ای (i) و(j) است. به عبارت دیگر  re(i)(j)اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است.

در ادامه عناصر مثال 2 را با روش تک اتصالی و بر مبنای ضریب عدم تشابه مجذور فاصله اقلیدسی عناصر خوشه‌بندی می‌کنیم. از این رو مطابق فرمول 11 ضریب تک اتصالی معادل حداقل ضریب عدم تشابه مجذور فاصله اقلیدسی است.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی (جدول 16) مانند ماتریس اندازه شباهت عنصرهاست (جدول 7) چون هر خوشه فقط یک عنصر دارد و ضریب تک اتصالی هر دو خوشه همان اندازه شباهت عنصرهای آن‌هاست.

Similarity-size-matrix10
جدول 16 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله صفر

مرحله یک

در این مرحله با وارسی ماتریس فاصله خوشه‌های مرحله صفر (جدول16) دو خوشه (3) و (4) را که دارای کمترین ضریب تک اتصالی (10) هستند با هم ترکیب می‌کنیم.

حال ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله یک را تشکیل می‌دهیم (جدول17) که در آن ضریب تک اتصالی خوشه جدید (3و4) با بقیه خوشه‌ها کمترین فاصله عنصر 3 و4 با عناصر خوشه‌های دیگر است. به عنوان مثال فاصله عنصر 3 با تک عنصر خوشه (1) معادل 628 و فاصله عنصر 4 با آن معادل 530 است. بنابراین ضریب تک اتصالی خوشه (3و4) با خوشه (1) کمترین آنهاست که 530 است.

Similarity-size-matrix11
جدول 17 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 1

مرحله دو

در این مرحله هم دو خوشه (5) و (6) را که در ماتریس فاصله خوشه‌های مرحله یک دارای کمترین ضریب تک اتصالی (25) هستند با هم ترکیب می‌کنیم. سپس ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله دو را تشکیل می‌دهیم (جدول 18).

Similarity-size-matrix12
جدول 18 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 2

مرحله سه

در این مرحله هم دو خوشه (1) و (2) را که در ماتریس فاصله خوشه‌های مرحله دو دارای کمترین ضریب تک اتصالی (116) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله سه را تشکیل می‌دهیم (جدول 19).

Similarity-size-matrix13
جدول 19 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 3

مرحله چهار

در این مرحله هم دو خوشه (1و2) و (5و6) را که در ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله سه دارای کمترین ضریب تک اتصالی (125) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله چهار را تشکیل می‌دهیم (جدول 20).

Similarity-size-matrix14
جدول 20 ماتریس فاصله خوشه‌ها بر حسب ضریب تک اتصالی مرحله 4

در این مرحله با ترکیب خوشه (1و2و5و6) و خوشه (3و4) که فاصله (ضریب تک اتصالی) آنها در مرحله چهار 136 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد.

نمودار درختی تک اتصالی

شکل 11 نمودار درختی خوشه‌بندی با روش تک اتصالی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 با هم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 نیز خوشه (1و2) و خوشه (5و6) در فاصله 125 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (1و2و5و6) و خوشه (3و4) در فاصله 136 با هم ترکیب شده‌اند.

Clustering-tree-diagram5
شکل 11 نمودار درختی با روش تک اتصالی مثال 2

تحلیل خوشه ای با روش تام اتصالی

در روش خوشه‌بندی تام اتصالی که روش دورترین همجوار هم خوانده می‌شود فاصله خوشه‌ها بر اساس ضریب تام اتصالی احتساب می‌شود. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب تام اتصالی دو خوشه هم بزرگ‌ترین اندازه شباهت بین جفت عنصرهای بین خوشه‌ای آنهاست. به بیان دیگر فاصله دو خوشه دورترین فاصله عنصری از یک خوشه با عنصری از خوشه دیگر است.

به این ترتیب ضریب تام اتصالی با نماد cl(i)(j) درجایی که اندازه شباهت مبتنی بر ضریب شباهت است حداقل اندازه شباهت جفت عنصر بین خوشه‌ای است:

cl-formula

و در جایی که اندازه شباهت مبتنی بر ضریب عدم شباهت است حداکثر اندازه شباهت جفت عنصر بین خوشه‌ای است:

cl-max

که در آن re(i)(j) اندازه شباهت جفت عنصر بین خوشه‌ای (i) و (j) است. به بیان دیگر re(i)(j) اندازه شباهت عنصری از خوشه (i) ام با عنصری از خوشه (j) ام است.

در ادامه عناصر مثال 2 را با روش تام اتصالی و بر مبنای ضریب عدم تشابه مجذور فاصله اقلیدسی عناصر خوشه‌بندی می‌کنیم. از این رو مطابق فرمول 13 ضریب تام اتصالی معادل حداکثر مجذور فاصله اقلیدسی است.

در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هر عنصر یک خوشه به حساب می‌آید و ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی (جدول 21) مانند ماتریس اندازه شباهت عنصرهاست (جدول 6) چه هر خوشه فقط یک عنصر دارد و ضریب تام اتصالی هر دو خوشه همان اندازه شباهت عنصرهای آنهاست.

Similarity-size-matrix15
جدول 21 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله صفر

در این مرحله با وارسی ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله صفر (جدول 21) دو خوشه (3) و (4) را که دارای کمترین ضریب تام اتصالی (10) هستند با هم ترکیب می‌کنیم.

حال ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله یک را تشکیل می دهیم (جدول 22) که در آن ضریب تام اتصالی خوشه جدید (3و4) با بقیه خوشه‌ها بزرگ‌ترین فاصله عنصر 3 و 4 با عناصر خوشه‌های دیگر است. به عنوان مثال فاصله عنصر 3 با تک عنصر خوشه (1) معادل 628 و فاصله عنصر 4 با آن معادل 530 است. بنابراین ضریب تام اتصالی خوشه (3و4) با خوشه (1) بزرگ‌ترین آنهاست که 628 است.

Similarity-size-matrix16
جدول 22 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله 1

مرحله دو

در این مرحله هم دو خوشه (5) و (6) را که در ماتریس فاصله خوشه‌های مرحله یک دارای کمترین فاصله (25) هستند با هم ترکیب می‌کنیم. سپس ماتریس فاصله خوشه‌های مرحله دو را تشکیل می‌دهیم (جدول 23) که در آن ضریب تام اتصالی خوشه جدید (5و6) با بقیه خوشه‌ها بزرگ‌ترین فاصله عنصر 5 و6 با عناصر خوشه‌های دیگر است.

به عنوان مثال فاصله عنصر 5 این خوشه با عنصر 3 خوشه (3 و4) معادل 233 و با عنصر 4 آن معادل 149 است و فاصله عنصر 6 این خوشه با عنصر 3 خوشه (3 و4) معادل 202 و با عنصر 4 آن معادل 136 است. در نتیجه ضریب تام اتصالی خوشه جدید (5 و6) با خوشه (3 و4) معادل 233 است که بزگ‌ترین فاصله بین چهار فاصله میان عناصر آن دو خوشه است.

Similarity-size-matrix17
جدول 23 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله2

مرحله سه

در این مرحله هم دو خوشه (1) و (2) را که در ماتریس فاصله خوشه‌های مرحله دو دارای کمترین فاصله (116) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌های مرحله سه را تشکیل می‌دهیم (جدول 24).

Similarity-size-matrix18
جدول 24 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله3

مرحله چهار

در این مرحله دو خوشه (3و4) و (5و6) را که در ماتریس فاصله خوشه‌های مرحله سه دارای کمترین فاصله (233) هستند با هم ترکیب می‌کنیم و ماتریس فاصله خوشه‌های مرحله چهاررا تشکیل می‌دهیم (جدول 25).

Similarity-size-matrix19
جدول 25 ماتریس فاصله خوشه‌ها بر حسب ضریب تام اتصالی مرحله4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3و4و5و6) و (1و2) که فاصله آنها 698 است به خوشه نهایی می‌رسیم که تمام عناصر را دربر می‌گیرد.

نمودار درختی تام اتصالی

شکل 12 نمودار درختی خوشه‌بندی با روش تام اتصالی مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) وخوشه (4) در فاصله 10 با هم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 25 باهم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 116 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3 و 4) و خوشه (5 و 6) در فاصله 233 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3 و 4 و 5 و 6) و خوشه (1 و 2) در فاصله 698 با هم ترکیب شده‌اند.

Clustering-tree-diagram6
شکل 12 نمودار درختی با روش تام اتصالی مثال 2

تحلیل خوشه ای به روش وارد

در روش خوشه‌بندی وارد که عنوان اختصاری روش خوشه‌بندی حداقل واریانس وارد است و اتصال وارد هم خوانده می‌شود در هر مرحله خوشه‌بندی فاصله بین خوشه‌ها براساس ضریب وارد احتساب می‌شود که ضریب مجذور انحرافات مقادیر عناصر درون خوشه‌ها از میانگین متغیرهاست. سپس دو خوشه‌ای که دارای کمترین فاصله هستند با هم ترکیب می‌شوند.

ضریب وارد با نماد E(i)(j) عبارت است از مجموع مجذور انحراف مقادیر از میانگین متغیر در درون دو خوشه (i) و (j) به اضافه مجموع مجذور انحراف مقادیر از میانگین متغیر در درون تک تک خوشه‌های دیگر:

E-Formula

که در آن Xg مقدار عنصر g ام دو خوشه (i) و (j) در متغیر X است و image086 میانگین متغیر X در آن دو خوشه Xh هم مقدار عنصر h ام خوشه (h) در متغیرX است و image087میانگین متغیر X در خوشه (h).در این روش نیز در ابتدای خوشه‌بندی (مرحله صفر) هرعنصر یک خوشه به حساب می‌آید.Similarity-size-matrix18

مرحله یک

در این مرحله هربار دو خوشه را در نظر می‌گیریم و ضریب وارد را که مبین فاصله دو خوشه است حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2  معادل 71 است و میانگین سایر خوشه‌ها نیز که تک‌عنصری هستند در هر متغیر معادل مقدار تک عنصر است ضریب وارد دو خوشه (1) و (2) عبارت است از:

E-Formula1

با همین روال ضریب وارد تمام دو خوشه‌های ممکن را حساب می‌کنیم (جدول 26). سپس دو خوشه‌ای که دارای کمترین فاصله (کمترین ضریب وارد) هستند با هم ترکیب می‌شوند. در این مثال با وارسی جدول 26 می‌بینیم ترکیب دو خوشه (3) و (4) از کمترین ضریب وارد برخوردار است. پس این دو خوشه را با هم ترکیب می‌کنیم.

مرحله دو

در این مرحله نیز هربار دو خوشه را در نظر می‌گیریم و ضریب وارد آن دو خوشه را حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2  معادل 71 است و میانگین خوشه (3 و 4) در متغیر X1 معادل 57/5 و در متغیر X2  معادل 52/5 است و میانگین سایر خوشه‌ها نیز که تک‌عنصری هستند در هر متغیر همان مقدار تک عنصر است ضریب وارد ترکیب دو خوشه (1) و (2) عبارت است از:

E-Formula2

با همین روال ضریب وارد ترکیب تمام دو خوشه‌های ممکن را حساب می‌کنیم ( جدول 27). سپس دو خوشه‌ای که دارای کمترین فاصله (کمترین ضریب وارد) هستند با هم ترکیب می‌شوند. در این مثال با وارسی جدول 27 می‌بینیم ترکیب دو خوشه (5) و (6) از کمترین ضریب وارد برخوردار است. بنابراین دو خوشه را با هم ترکیب می‌کنیم.

Similarity-size-matrix19
جدول 27 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 2

مرحله سه
در این مرحله هم باز هر بار دو خوشه را در نظر می‌گیریم و ضریب وارد آن دو خوشه را حساب می‌کنیم. به عنوان مثال با توجه به اینکه میانگین دو خوشه (1) و (2) در متغیر X1 معادل 50 و در متغیر X2 معادل 71 است و میانگین خوشه (3 و 4) در متغیر X1 معادل 57/5 و در متغیر X2 معادل 52/5 است و میانگین خوشه (5 و 6) در متغیر X1 معادل 66/5 و در متغیر X2 معادل 62 است ضریب وارد ترکیب دو خوشه (1) و (2) عبارت است از:

E-Formula3

با همین روال ضریب وارد تمام دو خوشه‌های ممکن را حساب می‌کنیم (جدول 28). در این مثال دو خوشه (1) و (2) و همچنین دو خوشه (3 و 4) و (5 و 6) از کمترین ضریب وارد برخوردارند. از این رو یکی از این جفت خوشه‎ها را و معمولا کم عنصر ترین خوشه‌ها را که دو خوشه (1) و (2) هستند با هم ترکیب می‌کنیم.

Similarity-size-matrix20
جدول 28 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 3

مرحله چهار

در این مرحله هم باز هر بار دو خوشه را در نظر می‌گیریم و ضریب وارد دو خوشه را حساب می‌کنیم (جدول 29). در این مثال با وارسی جدول 27 می‌بینیم ترکیب دو خوشه (3 و 4) و (5 و 6) از کمترین ضریب وارد برخوردار است. بنا بر این دو خوشه را با هم ترکیب می‌کنیم.

Similarity-size-matrix21
جدول 29 ماتریس فاصله خوشه‌ها بر حسب ضریب وارد مرحله 4

مرحله پنج

در این مرحله با ترکیب دو خوشه (3 و 4 و 5 و 6) و (1 و 2) که فاصله (ضریب وارد) آنها 833/690 است به خوشه نهایی می‌رسیم که تمام عناصر را در بر می‌گیرد.

نمودار درختی وارد

شکل 13 نمودار درختی خوشه‌بندی با روش وارد مثال 2 است. در این نمودار درختی هم در ابتدا هر عنصری یک خوشه است. در مرحله 1 خوشه (3) و خوشه (4) در فاصله5/00 باهم ترکیب شده‌اند. سپس در مرحله 2 خوشه (5) و خوشه (6) در فاصله 17/50 با هم ترکیب شده‌اند. در مرحله 3 هم خوشه (1) و خوشه (2) در فاصله 75/50 با هم ترکیب شده‌اند. در مرحله 4 خوشه (3 و 4) و خوشه (5 و 6) در فاصله 246/75 با هم ترکیب شده‌اند. سرانجام در مرحله 5 خوشه (3 و 4 و 5 و 6) و خوشه (1 و 2) در فاصله 690/833 با هم ترکیب شده‌اند.

Clustering-tree-diagram7
شکل 13 نمودار درختی با روش وارد مثال 2

تحلیل خوشه ای کاربرد های متنوعی دارد در این مطلب سعی کردیم تمامی بخش های این مبحث را با مثال های متنوع و متعدد به شما توضیح دهیم. اما چنانچه در مسیر انجام تحلیل خوشه ای دچار مشکل شدید می توانید سوالات خود را در قسمت مشاوره آماری رایگان از افراد با تجربه در این زمینه بپرسید.

چنانچه علاقه مند به مباحث آماری هستید برای با خبر شدن از جدید ترین مطالب آماری می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید. همچنین اگر پروژه شما با پیچیدگی های خاصی همراه است که باید آن را به افراد با تجربه در موضوع تحلیل خوشه ای بسپارید، برای این کار کافیست فرم آماده شده در صفحه ثبت سفارش را کامل کنید تا در اولین فرصت کارشناسان ما با شما تماس بگیرند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *