data-mining

داده کاوی(data mining) چیست؟-مراحل و نرم افزار‌های مورد استفاده

داده کاوی به زبان ساده

داده کاوی را اگر بخواهیم به زبان ساده تعریف کنیم همان استفاده استخراج اطلاعات پنهان و یا روش‌ها و روابط نهان در حجم زیادی از داده‌ها است .  Data Mining یا همان داده کاوی که ترجمه تحت اللفظی آن کاویدن داده ها است .کلمه  ” Mining ” اصطلاحی است که برای استخراج از معدن استفاده شده است، داده کاوی به ما نشان می‌دهند که اطلاعات همچون معادنی حاوی داده‌های ارزشمند هستند که باید آن ها را استخراج کنیم.

مثالی که همیشه برای بیان ارزش داده کاوی مطرح می‌گردد این است که تحقیقات بازاریابی در یک فروشگاه آمریکا نشان می‌دهد که اغلب افراد پس از برداشتن شیر به سمت نان می‌روند و هر دو را خریداری می‌کنند. با توجه به این امر فاصله شیر و نان رادر این فروشگاه زیاد کردند  و در بین این دو  محصولات زیادی از کالا های ضروری را قرار دادن که فروش این اجناس نیز افزایش پیدا کرد. با این مثال ساده شما می توانید به اهمیت داده کاوی پی ببرید. داده هایی که شاید از منظر بسیاری از افراد بی ارزش باشند اما حال ارزش آن ها کشف شده است

امروزه داده کاوی به عنوان یک روش جدید برای نظم دادن به پایگاه­ های بزرگ و در حال افزایش داده ها ظهور پیدا کرده است. در دنیای امروزی حتی در کارهای ساده ای مانند تلفن زدن، استفاده از کارت های اعتباری یا خریدهای روزانه، جای پای تکنولوژی های مدرن دیده می­ شود. افزایش آزمایش­ ها در تمام زمینه‌های علمی و ثبت نتایج آن باعث ذخیره انبوه داده ها به حجم چندین پتابایت (هزار ترابایت) شده است.

دستگاه های جمع آوری اتوماتیک داده که در کسب و کار امروزی مورد استفاده قرار می­گیرند توانایی تولید ترابایت (هزار گیگا بایت) داده در ساعت را دارند. داده ­کاوی به دنبال نیاز به دستکاری انبار داده بوجود آمد تا الگوهایی منطقی از داده ها بدست آورد که ممکن است برای مدیریت سازمان یا شرکت تولید کننده داده مفید باشد. این الگو می­تواند یک خلاصه سازی ساده از داده، طبقه بندی داده و یا مدل مربوط به آن باشد .

داده­ کاوی فرآیند استخراج رابطه ­ها، روش ها و فعالیت های روزمره جدید معنی­ داری است که تعداد بسیار زیادی از اطلاعات نگهداری شده در مخزن‌های داده با تکنولوژی های شناسایی الگو مانند ریاضی و آمار بررسی می‌کند.

Defining-data-mining

امروزه اکثر سازمان ها از لحاظ داده ها بسیار غنی می باشند، چرا که آنها حجم عظیم و روز افزون داده ها را ذخیره نموده اند . عموما سازمان­ ها از این کوه داده­ ها برای ارایه آمار و گزارش استفاده می­ کنند. داده ­کاوی فرآیند استخراج دانش از داده ­ها می باشد. این امر از طریق کشف الگوهای موجود در داده ­ها انجام می­گیرد. در واقع داده کاوی به عنوان روشی جهت پشتیبانی تصمیم ­گیری مبتنی بر کامپیوتر، فناوری جدیدی نیست. بلکه با گرفتن الکوریتم های زیادی از آمار، هوش مصنوعی و سایر زمینه ها، کاری جدید را انجام می­دهد.

نقطه تحول الگوریتم­ های داده کاوی نیستند، بلکه ایده استخراج دانش به طور خودکار از پایگاه­ های بزرگ داده است. این مطلب در کنار این مساله بسیار حائز اهمیت می­شود که امروزه حجم عظیمی از داده های خوب و پاکسازی شده در سازمان ها وجود دارد و راهکارهای موثری در بستر فناوری اطلاعات، هم در توانایی انبارش و هم در پردازش به وجود آمده است. اگر چه هنوز اجرای کشف دانش از پایگاه های داده به طور کاملا خودکار، راهی طولانی تا وضعیت ایده آل در پیش دارد، اما این مفهوم جدید و تلاش­های تحقیقاتی انجام شده در مورد آن، فرصتی را خلق می­کند تا در حوزه تصمیم­گیری کامپیوتر مبنا تحولی عظیم در آینده رخ دهد.

مراحل داده کاوی

فرایند داده کاوی شامل سه مرحله است، آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل زیر این مراحل سه گانه را به همراه زیر مراحل آن ها نشان میدهد.

process-of-data-mining

آماده‌سازی داده‌ها

مرحله اول داده‌کاوی، آماده‌سازی داده‌هاست که در آن اقداماتی انجام می‌شود. در این مرحله سلسله فرآیند‌هایی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مسئله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری مدل،  پالایش شده و آماده می‌شود. این عملیات عبارتند از:

پاکسازی داده ((Data Cleaning

انتخاب زیر مجموعه ویژگی (Feature Subset Selection)

فیلترینگ نمونه ها (Sample Filtering)

نمونه گیری (Sampling)

تبدیل داده (Data Transformation)

گسسته سازی (Discretization)

کاهش ابعاد ((Dimensionality Reduction

انبوهش داده (Data Aggregation)

خلق ویژگی (Feature Creation)

نکته: مهمترین مرحله در آماده‌سازی داده‌ها، پاکسازی داده است که بین 60 تا 80 درصد یک پروژه داده‌کاوی را در برمی‌گیرد. کیفیت پایین داده یکی از مسائل رایج داده است. فرآیند هایی که مشکلات داده را برطرف می‌کند، پاکسازی داده گفته می‌شود. مسائلی که کیفیت داده ها را به خطر می‌اندازند به شرح ذیل است:

نویز (Noise)، نمونه‌های پرت (outliers)، مقادیر از دست رفته (Missing Values) و داده های دونسخه‌ای یا تکراری (Duplicate Data).

یادگیری مدل

پس از آماده‌سازی داده‌ها در فرآیند داده‌کاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل، نظم حاکم بر داده‌های پیش‌پردازش شده، با توجه به روش کاوش داده‌ای که انتخاب می‌شود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد.

سه روش پر کاربرد در داده کاوی، دسته بندی (Classification)، خوشه بندی (Clustering) و کاوش قوانین انجمنی (Association rules) است. انواع متنوعی از الگوریتم‌های مطرح یادگیری مدل، برای هر کدام از سه روش داده کاوی مذکور وجود دارند، که در ادامه روش دسته بندی تشریح خواهد شد.

ارزیابی و تفسیر مدل

در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار می­گیرد. منظور از ارزیابی دانش آن است که می‌بایست میزان صحت دانش تولید شده  مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم.

نرم افزارهای مورد استفاده در داده کاوی

برای انجام داده‌کاوی و پیاده‌سازی الگوریتم‌های مربوط به آن می‌توان از نرم‌افزارهای برنامه‌نویسی R، MATLAB و  Pythonو نرم‌افزارهای RapidMiner، SPSS Modeler، SAS JMP، Weka و … استفاده نمود.

با توجه به مطالبی که درباره داده کاوی مطرح شد  خدماتی که در این حوزه  شرکت‌های آماری ارائه می‌دهند را در صفحه اختصاصی داده‌ کاوی می توانید ببینید. یکی از خدمات شرکت آمار تحلیل داده‌های حجیم سازمانی و داده کاوی است که می توانید برای دریافت آن با سایت آمار پیشرو ارتباط برقرار کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *