داده کاوی را اگر بخواهیم به زبان ساده تعریف کنیم همان استفاده استخراج اطلاعات پنهان و یا روشها و روابط نهان در حجم زیادی از دادهها است . Data Mining یا همان داده کاوی که ترجمه تحت اللفظی آن کاویدن داده ها است .کلمه ” Mining ” اصطلاحی است که برای استخراج از معدن استفاده شده است، داده کاوی به ما نشان میدهند که اطلاعات همچون معادنی حاوی دادههای ارزشمند هستند که باید آن ها را استخراج کنیم.
مثالی که همیشه برای بیان ارزش داده کاوی مطرح میگردد این است که تحقیقات بازاریابی در یک فروشگاه آمریکا نشان میدهد که اغلب افراد پس از برداشتن شیر به سمت نان میروند و هر دو را خریداری میکنند. با توجه به این امر فاصله شیر و نان رادر این فروشگاه زیاد کردند و در بین این دو محصولات زیادی از کالا های ضروری را قرار دادن که فروش این اجناس نیز افزایش پیدا کرد. با این مثال ساده شما می توانید به اهمیت داده کاوی پی ببرید. داده هایی که شاید از منظر بسیاری از افراد بی ارزش باشند اما حال ارزش آن ها کشف شده است.
داده کاوی فرآیند مرتب سازی از طریق مجموعه داده های بزرگ برای شناسایی الگوها و روابطی است که می تواند به حل مشکلات تجاری از طریق تجزیه و تحلیل داده ها کمک کند. تکنیک ها و ابزارهای داده کاوی شرکت ها را قادر می سازد تا روندهای آینده را پیش بینی کنند و تصمیمات تجاری آگاهانه تری اتخاذ کنند.
داده کاوی بخش کلیدی تجزیه و تحلیل داده به طور کلی و یکی از رشته های اصلی در علم داده است که از تکنیک های تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه داده ها استفاده می کند. در یک سطح جزئی تر، داده کاوی گامی در فرآیند کشف دانش در پایگاه های داده (KDD) است، یک روش علم داده برای جمع آوری، پردازش و تجزیه و تحلیل داده ها. داده کاوی و KDD گاهی اوقات به جای هم نامیده می شوند، اما معمولاً به عنوان چیزهای متمایز دیده می شوند.
امروزه داده کاوی به عنوان یک روش جدید برای نظم دادن به پایگاه های بزرگ و در حال افزایش داده ها ظهور پیدا کرده است. در دنیای امروزی حتی در کارهای ساده ای مانند تلفن زدن، استفاده از کارت های اعتباری یا خریدهای روزانه، جای پای تکنولوژی های مدرن دیده می شود. افزایش آزمایش ها در تمام زمینههای علمی و ثبت نتایج آن باعث ذخیره انبوه داده ها به حجم چندین پتابایت (هزار ترابایت) شده است.
دستگاه های جمع آوری اتوماتیک داده که در کسب و کار امروزی مورد استفاده قرار میگیرند توانایی تولید ترابایت (هزار گیگا بایت) داده در ساعت را دارند. داده کاوی به دنبال نیاز به دستکاری انبار داده بوجود آمد تا الگوهایی منطقی از داده ها بدست آورد که ممکن است برای مدیریت سازمان یا شرکت تولید کننده داده مفید باشد. این الگو میتواند یک خلاصه سازی ساده از داده، طبقه بندی داده و یا مدل مربوط به آن باشد .
داده کاوی فرآیند استخراج رابطه ها، روش ها و فعالیت های روزمره جدید معنی داری است که تعداد بسیار زیادی از اطلاعات نگهداری شده در مخزنهای داده با تکنولوژی های شناسایی الگو مانند ریاضی و آمار بررسی میکند.

داده کاوی جزء حیاتی ابتکارات تحلیلی موفق در سازمانها است. اطلاعاتی که تولید میکند، میتواند در هوش تجاری (BI) و برنامههای تحلیلی پیشرفته که شامل تجزیه و تحلیل دادههای تاریخی است، و همچنین برنامههای تحلیلی بلادرنگ که دادههای جریانی را هنگام ایجاد یا جمعآوری بررسی میکنند، استفاده شود.
داده کاوی موثر در جنبه های مختلف برنامه ریزی استراتژی های تجاری و مدیریت عملیات کمک می کند. این شامل کارکردهای مواجهه با مشتری مانند بازاریابی، تبلیغات، فروش و پشتیبانی مشتری، به علاوه تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی است. داده کاوی از کشف تقلب، مدیریت ریسک، برنامه ریزی امنیت سایبری و بسیاری دیگر از موارد استفاده حیاتی تجاری پشتیبانی می کند. همچنین نقش مهمی در مراقبت های بهداشتی، دولتی، تحقیقات علمی، ریاضیات، ورزش و غیره ایفا می کند.
امروزه اکثر سازمان ها از لحاظ داده ها بسیار غنی می باشند، چرا که آنها حجم عظیم و روز افزون داده ها را ذخیره نموده اند . عموما سازمان ها از این کوه داده ها برای ارایه آمار و گزارش استفاده می کنند. داده کاوی فرآیند استخراج دانش از داده ها می باشد. این امر از طریق کشف الگوهای موجود در داده ها انجام میگیرد. در واقع داده کاوی به عنوان روشی جهت پشتیبانی تصمیم گیری مبتنی بر کامپیوتر، فناوری جدیدی نیست. بلکه با گرفتن الکوریتم های زیادی از آمار، هوش مصنوعی و سایر زمینه ها، کاری جدید را انجام میدهد.
نقطه تحول الگوریتم های داده کاوی نیستند، بلکه ایده استخراج دانش به طور خودکار از پایگاه های بزرگ داده است. این مطلب در کنار این مساله بسیار حائز اهمیت میشود که امروزه حجم عظیمی از داده های خوب و پاکسازی شده در سازمان ها وجود دارد و راهکارهای موثری در بستر فناوری اطلاعات، هم در توانایی انبارش و هم در پردازش به وجود آمده است. اگر چه هنوز اجرای کشف دانش از پایگاه های داده به طور کاملا خودکار، راهی طولانی تا وضعیت ایده آل در پیش دارد، اما این مفهوم جدید و تلاشهای تحقیقاتی انجام شده در مورد آن، فرصتی را خلق میکند تا در حوزه تصمیمگیری کامپیوتر مبنا تحولی عظیم در آینده رخ دهد.
داده کاوی معمولا توسط دانشمندان داده و سایر متخصصان BI ماهر در تجزیه و تحلیل انجام می شود. اما میتواند توسط تحلیلگران کسبوکار، مدیران اجرایی و کارگرانی که بهعنوان دانشمند دادههای شهروندی در یک سازمان کار میکنند، نیز انجام شود.
عناصر اصلی آن شامل یادگیری ماشینی و تجزیه و تحلیل آماری، همراه با وظایف مدیریت داده ها برای آماده سازی داده ها برای تجزیه و تحلیل است. استفاده از الگوریتمهای یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر فرآیند را خودکار کرده و استخراج مجموعههای داده عظیم، مانند پایگاههای اطلاعاتی مشتریان، سوابق تراکنشها و فایلهای گزارش از سرورهای وب، اپلیکیشنهای موبایل و حسگرها را آسانتر کرده است.

فرایند داده کاوی شامل سه مرحله است، آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل زیر این مراحل سه گانه را به همراه زیر مراحل آن ها نشان میدهد.
داده های مربوط به یک برنامه تحلیلی شناسایی و جمع آوری می شود. داده ها ممکن است در سیستم های منبع مختلف، یک انبار داده یا یک دریاچه داده، یک مخزن به طور فزاینده ای رایج در محیط های کلان داده که حاوی ترکیبی از داده های ساختاریافته و بدون ساختار است، واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. دادهها از هر کجا که میآیند، یک دانشمند داده اغلب آنها را برای مراحل باقیمانده در فرآیند به دریاچه داده منتقل میکند.
مرحله دوم دادهکاوی، آمادهسازی دادههاست که در آن اقداماتی انجام میشود.این مرحله شامل مجموعه ای از مراحل برای آماده سازی داده ها برای استخراج است. این کار با کاوش دادهها، پروفایلسازی و پیشپردازش آغاز میشود و پس از آن کار پاکسازی دادهها برای رفع خطاها و سایر مشکلات کیفیت دادهها انجام میشود. تبدیل داده ها همچنین برای سازگاری مجموعه داده ها انجام می شود، مگر اینکه یک دانشمند داده به دنبال تجزیه و تحلیل داده های خام فیلتر نشده برای یک برنامه خاص باشد.
در این مرحله سلسله فرآیندهایی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مسئله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری مدل، پالایش شده و آماده میشود. این عملیات عبارتند از:
انتخاب زیر مجموعه ویژگی (Feature Subset Selection)
فیلترینگ نمونه ها (Sample Filtering)
نمونه گیری (Sampling)
تبدیل داده (Data Transformation)
گسسته سازی (Discretization)
کاهش ابعاد ((Dimensionality Reduction
انبوهش داده (Data Aggregation)
خلق ویژگی (Feature Creation)
نکته: مهمترین مرحله در آمادهسازی دادهها، پاکسازی داده است که بین ۶۰ تا ۸۰ درصد یک پروژه دادهکاوی را در برمیگیرد. کیفیت پایین داده یکی از مسائل رایج داده است. فرآیند هایی که مشکلات داده را برطرف میکند، پاکسازی داده گفته میشود. مسائلی که کیفیت داده ها را به خطر میاندازند به شرح ذیل است:
نویز (Noise)، نمونههای پرت (outliers)، مقادیر از دست رفته (Missing Values) و داده های دونسخهای یا تکراری (Duplicate Data).
هنگامی که داده ها آماده شدند، یک دانشمند داده تکنیک داده کاوی مناسب را انتخاب می کند و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی می کند. در برنامههای یادگیری ماشین، الگوریتمها معمولاً باید بر روی مجموعه دادههای نمونه آموزش داده شوند تا قبل از اجرای آنها با مجموعه کامل دادهها، به دنبال اطلاعاتی باشند که به دنبال آن هستند.
پس از آمادهسازی دادهها در فرآیند دادهکاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل، نظم حاکم بر دادههای پیشپردازش شده، با توجه به روش کاوش دادهای که انتخاب میشود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد.
سه روش پر کاربرد در داده کاوی، دسته بندی (Classification)، خوشه بندی (Clustering) و کاوش قوانین انجمنی (Association rules) است. انواع متنوعی از الگوریتمهای مطرح یادگیری مدل، برای هر کدام از سه روش داده کاوی مذکور وجود دارند، که در ادامه روش دسته بندی تشریح خواهد شد.
در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار میگیرد. منظور از ارزیابی دانش آن است که میبایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم.
نتایج داده کاوی برای ایجاد مدل های تحلیلی استفاده می شود که می تواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. دانشمند داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافته ها را به مدیران تجاری و کاربران، اغلب از طریق تجسم داده ها و استفاده از تکنیک های داستان سرایی داده، در میان بگذارد.
تکنیک های مختلفی را می توان برای استخراج داده ها برای کاربردهای مختلف علم داده استفاده کرد. تشخیص الگو یک مورد رایج استفاده از داده کاوی است که با تکنیک های متعدد فعال می شود، همانطور که تشخیص ناهنجاری است، که هدف آن شناسایی مقادیر پرت در مجموعه داده ها است. تکنیک های رایج داده کاوی شامل انواع زیر است:
ابزارهای داده کاوی از تعداد زیادی از فروشنده در دسترس هستند، معمولاً به عنوان بخشی از پلتفرم های نرم افزاری که شامل انواع دیگری از علم داده و ابزارهای تجزیه و تحلیل پیشرفته نیز می شود. ویژگیهای کلیدی ارائه شده توسط نرمافزار داده کاوی شامل قابلیتهای آمادهسازی داده، الگوریتمهای داخلی، پشتیبانی از مدلسازی پیشبینیکننده، یک محیط توسعه مبتنی بر رابط کاربری گرافیکی، و ابزارهایی برای استقرار مدلها و امتیازدهی به نحوه عملکرد آنها است.
فروشندگانی که ابزارهایی را برای داده کاوی ارائه می دهند عبارتند از Alteryx، AWS، Databricks، Dataiku، DataRobot، Google، H2O.ai، IBM، Knime، Microsoft، Oracle، RapidMiner، SAP، SAS Institute و Tibco Software و غیره.
انواع فناوری های منبع باز رایگان نیز می توانند برای استخراج داده ها استفاده شوند، از جمله DataMelt، Elki، Orange، Rattle، scikit-learn و Weka. برخی از فروشندگان نرم افزار گزینه های منبع باز را نیز ارائه می دهند. به عنوان مثال، Knime یک پلت فرم تجزیه و تحلیل منبع باز را با نرم افزار تجاری برای مدیریت برنامه های علم داده ترکیب می کند، در حالی که شرکت هایی مانند Dataiku و H2O.ai نسخه های رایگان ابزارهای خود را ارائه می دهند.
در نهایت، ابتکارات داده کاوی می تواند منجر به درآمد و سود بالاتر و همچنین مزیت های رقابتی شود که شرکت ها را از رقبای تجاری خود متمایز می کند.
داده کاوی گاهی اوقات به عنوان مترادف با تجزیه و تحلیل داده در نظر گرفته می شود. اما عمدتاً به عنوان یک جنبه خاص از تجزیه و تحلیل داده ها در نظر گرفته می شود که تجزیه و تحلیل مجموعه داده های بزرگ را برای کشف اطلاعاتی که در غیر این صورت قابل شناسایی نبود، خودکار میکند. سپس این اطلاعات میتواند در فرآیند علم داده و سایر برنامه های کاربردی BI و تجزیه و تحلیل استفاده شود.
انبار داده با ارائه مخازن برای مجموعه داده ها از تلاش های داده کاوی پشتیبانی می کند. به طور سنتی، دادههای تاریخی در انبارهای داده سازمانی یا بازارهای داده کوچکتر که برای واحدهای تجاری منفرد یا برای نگهداری زیرمجموعههای خاصی از دادهها ساخته شدهاند، ذخیره میشوند. با این حال، اکنون برنامههای داده کاوی اغلب توسط دریاچههای داده ارائه میشوند که هم دادههای تاریخی و هم دادههای جریانی را ذخیره میکنند و بر اساس پلتفرمهای کلان داده مانند Hadoop و Spark، پایگاههای داده NoSQL یا سرویسهای ذخیرهسازی اشیای ابری هستند.
تاریخچه و ریشه های داده کاوی چیست ؟
فن آوری های ذخیره سازی داده، BI و تجزیه و تحلیل در اواخر دهه ۱۹۸۰ و اوایل دهه ۱۹۹۰ شروع به ظهور کردند و توانایی افزایش یافته ای را برای تجزیه و تحلیل حجم فزاینده ای از داده هایی که سازمان ها ایجاد و جمع آوری می کردند را فراهم کردند. اصطلاح داده کاوی تا سال ۱۹۹۵ مورد استفاده قرار گرفت، زمانی که اولین کنفرانس بین المللی کشف دانش و داده کاوی در مونترال برگزار شد.
این رویداد توسط انجمن پیشرفت هوش مصنوعی یا AARI حمایت می شود که همچنین این کنفرانس را سالانه برای سه سال آینده برگزار می کند. از سال ۱۹۹۹، این کنفرانس – که عموماً به عنوان KDD 2021 و غیره شناخته می شود – عمدتاً توسط SIGKDD، گروه مورد علاقه ویژه در زمینه کشف دانش و داده کاوی در انجمن ماشین های محاسباتی سازماندهی شده است.
یک مجله فنی به نام Data Mining and Knowledge Discovery اولین شماره خود را در سال ۱۹۹۷ منتشر کرد. در ابتدا به صورت فصلی، اکنون هر دو ماه یکبار منتشر می شود و حاوی مقالات بررسی شده در مورد داده کاوی و نظریه ها، تکنیک ها و شیوه های کشف دانش است. نشریه دیگری، مجله آمریکایی داده کاوی و کشف دانش، در سال ۲۰۱۶ راه اندازی شد.
با توجه به مطالبی که درباره داده کاوی مطرح شد خدماتی که در این حوزه شرکتهای آماری ارائه میدهند را در صفحه اختصاصی داده کاوی می توانید ببینید. یکی از خدمات شرکت آمار تحلیل دادههای حجیم سازمانی و داده کاوی است که می توانید برای دریافت آن با سایت آمار پیشرو ارتباط برقرار کنید.
در این مطلب سعی کردیم کلیات اصلی دده کاوی را به شما آموزش دهیم. برای دریافت اطلاعات بیشتر و محتوا های بیشتر درباره موضوعات آماری و داده کاوی می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید.
داده کاوی استخراج اطلاعات پنهان و یا روشها و روابط نهان در حجم زیادی از دادهها است .
فرایند داده کاوی شامل سه مرحله است، آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل
برای انجام دادهکاوی و پیادهسازی الگوریتمهای مربوط به آن میتوان از نرمافزارهای برنامهنویسی R، MATLAB و Pythonو نرمافزارهای RapidMiner، SPSS Modeler، SAS JMP، Weka و … استفاده نمود.
فرض کنید بخواهیم مشتریان یک بانک را برای گرفتن وام طبقهبندی کنیم.
جهت مشاوره رایگان همین الان سفارشتونو ثبت کنید تا کارشناسان ما دراسرع وقت باهاتون تماس بگیرند.
ثبت سفارش
دیدگاه بگذارید