داده کاوی(data mining) چیست؟ – مراحل و نرم افزار‌های

فهرست مطالب

داده کاوی چیست؟

داده کاوی را اگر بخواهیم به زبان ساده تعریف کنیم همان استفاده استخراج اطلاعات پنهان و یا روش‌ها و روابط نهان در حجم زیادی از داده‌ها است .  Data Mining یا همان داده کاوی که ترجمه تحت اللفظی آن کاویدن داده ها است .کلمه  ” Mining ” اصطلاحی است که برای استخراج از معدن استفاده شده است، داده کاوی به ما نشان می‌دهند که اطلاعات همچون معادنی حاوی داده‌های ارزشمند هستند که باید آن ها را استخراج کنیم.

مثالی که همیشه برای بیان ارزش داده کاوی مطرح می‌گردد این است که تحقیقات بازاریابی در یک فروشگاه آمریکا نشان می‌دهد که اغلب افراد پس از برداشتن شیر به سمت نان می‌روند و هر دو را خریداری می‌کنند. با توجه به این امر فاصله شیر و نان رادر این فروشگاه زیاد کردند  و در بین این دو  محصولات زیادی از کالا های ضروری را قرار دادن که فروش این اجناس نیز افزایش پیدا کرد. با این مثال ساده شما می توانید به اهمیت داده کاوی پی ببرید. داده هایی که شاید از منظر بسیاری از افراد بی ارزش باشند اما حال ارزش آن ها کشف شده است.

داده کاوی فرآیند مرتب سازی از طریق مجموعه داده های بزرگ برای شناسایی الگوها و روابطی است که می تواند به حل مشکلات تجاری از طریق تجزیه و تحلیل داده ها کمک کند. تکنیک ها و ابزارهای داده کاوی شرکت ها را قادر می سازد تا روندهای آینده را پیش بینی کنند و تصمیمات تجاری آگاهانه تری اتخاذ کنند.

داده کاوی بخش کلیدی تجزیه و تحلیل داده به طور کلی و یکی از رشته های اصلی در علم داده است که از تکنیک های تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه داده ها استفاده می کند. در یک سطح جزئی تر، داده کاوی گامی در فرآیند کشف دانش در پایگاه های داده (KDD) است، یک روش علم داده برای جمع آوری، پردازش و تجزیه و تحلیل داده ها. داده کاوی و KDD گاهی اوقات به جای هم نامیده می شوند، اما معمولاً به عنوان چیزهای متمایز دیده می شوند.

داده کاوی در دنیای امروز چیست؟

امروزه داده کاوی به عنوان یک روش جدید برای نظم دادن به پایگاه­ های بزرگ و در حال افزایش داده ها ظهور پیدا کرده است. در دنیای امروزی حتی در کارهای ساده ای مانند تلفن زدن، استفاده از کارت های اعتباری یا خریدهای روزانه، جای پای تکنولوژی های مدرن دیده می­ شود. افزایش آزمایش­ ها در تمام زمینه‌های علمی و ثبت نتایج آن باعث ذخیره انبوه داده ها به حجم چندین پتابایت (هزار ترابایت) شده است.

دستگاه های جمع آوری اتوماتیک داده که در کسب و کار امروزی مورد استفاده قرار می­گیرند توانایی تولید ترابایت (هزار گیگا بایت) داده در ساعت را دارند. داده ­کاوی به دنبال نیاز به دستکاری انبار داده بوجود آمد تا الگوهایی منطقی از داده ها بدست آورد که ممکن است برای مدیریت سازمان یا شرکت تولید کننده داده مفید باشد. این الگو می­تواند یک خلاصه سازی ساده از داده، طبقه بندی داده و یا مدل مربوط به آن باشد .

داده­ کاوی فرآیند استخراج رابطه ­ها، روش ها و فعالیت های روزمره جدید معنی­ داری است که تعداد بسیار زیادی از اطلاعات نگهداری شده در مخزن‌های داده با تکنولوژی های شناسایی الگو مانند ریاضی و آمار بررسی می‌کند.

Defining-data-mining

اهمیت داده کاوی در چیست؟

داده کاوی جزء حیاتی ابتکارات تحلیلی موفق در سازمانها است. اطلاعاتی که تولید می‌کند، می‌تواند در هوش تجاری (BI) و برنامه‌های تحلیلی پیشرفته که شامل تجزیه و تحلیل داده‌های تاریخی است، و همچنین برنامه‌های تحلیلی بلادرنگ که داده‌های جریانی را هنگام ایجاد یا جمع‌آوری بررسی می‌کنند، استفاده شود.

داده کاوی موثر در جنبه های مختلف برنامه ریزی استراتژی های تجاری و مدیریت عملیات کمک می کند. این شامل کارکردهای مواجهه با مشتری مانند بازاریابی، تبلیغات، فروش و پشتیبانی مشتری، به علاوه تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی است. داده کاوی از کشف تقلب، مدیریت ریسک، برنامه ریزی امنیت سایبری و بسیاری دیگر از موارد استفاده حیاتی تجاری پشتیبانی می کند. همچنین نقش مهمی در مراقبت های بهداشتی، دولتی، تحقیقات علمی، ریاضیات، ورزش و غیره ایفا می کند.

امروزه اکثر سازمان ها از لحاظ داده ها بسیار غنی می باشند، چرا که آنها حجم عظیم و روز افزون داده ها را ذخیره نموده اند . عموما سازمان­ ها از این کوه داده­ ها برای ارایه آمار و گزارش استفاده می­ کنند. داده ­کاوی فرآیند استخراج دانش از داده ­ها می باشد. این امر از طریق کشف الگوهای موجود در داده ­ها انجام می­گیرد. در واقع داده کاوی به عنوان روشی جهت پشتیبانی تصمیم ­گیری مبتنی بر کامپیوتر، فناوری جدیدی نیست. بلکه با گرفتن الکوریتم های زیادی از آمار، هوش مصنوعی و سایر زمینه ها، کاری جدید را انجام می­دهد.

نقطه تحول الگوریتم­ های داده کاوی نیستند، بلکه ایده استخراج دانش به طور خودکار از پایگاه­ های بزرگ داده است. این مطلب در کنار این مساله بسیار حائز اهمیت می­شود که امروزه حجم عظیمی از داده های خوب و پاکسازی شده در سازمان ها وجود دارد و راهکارهای موثری در بستر فناوری اطلاعات، هم در توانایی انبارش و هم در پردازش به وجود آمده است. اگر چه هنوز اجرای کشف دانش از پایگاه های داده به طور کاملا خودکار، راهی طولانی تا وضعیت ایده آل در پیش دارد، اما این مفهوم جدید و تلاش­های تحقیقاتی انجام شده در مورد آن، فرصتی را خلق می­کند تا در حوزه تصمیم­گیری کامپیوتر مبنا تحولی عظیم در آینده رخ دهد.

مراحل داده کاوی

داده کاوی معمولا توسط دانشمندان داده و سایر متخصصان BI ماهر در تجزیه و تحلیل انجام می شود. اما می‌تواند توسط تحلیلگران کسب‌وکار، مدیران اجرایی و کارگرانی که به‌عنوان دانشمند داده‌های شهروندی در یک سازمان کار می‌کنند، نیز انجام شود.

عناصر اصلی آن شامل یادگیری ماشینی و تجزیه و تحلیل آماری، همراه با وظایف مدیریت داده ها برای آماده سازی داده ها برای تجزیه و تحلیل است. استفاده از الگوریتم‌های یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر فرآیند را خودکار کرده و استخراج مجموعه‌های داده عظیم، مانند پایگاه‌های اطلاعاتی مشتریان، سوابق تراکنش‌ها و فایل‌های گزارش از سرورهای وب، اپلیکیشن‌های موبایل و حسگرها را آسان‌تر کرده است.

مراحل داده کاوی

فرایند داده کاوی شامل سه مرحله است، آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل زیر این مراحل سه گانه را به همراه زیر مراحل آن ها نشان میدهد.

مرحله اول جمع آوری داده ها

داده های مربوط به یک برنامه تحلیلی شناسایی و جمع آوری می شود. داده ها ممکن است در سیستم های منبع مختلف، یک انبار داده یا یک دریاچه داده، یک مخزن به طور فزاینده ای رایج در محیط های کلان داده که حاوی ترکیبی از داده های ساختاریافته و بدون ساختار است، واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. داده‌ها از هر کجا که می‌آیند، یک دانشمند داده اغلب آن‌ها را برای مراحل باقی‌مانده در فرآیند به دریاچه داده منتقل می‌کند.

مرحله دوم آماده سازی داده ها

مرحله دوم داده‌کاوی، آماده‌سازی داده‌هاست که در آن اقداماتی انجام می‌شود.این مرحله شامل مجموعه ای از مراحل برای آماده سازی داده ها برای استخراج است. این کار با کاوش داده‌ها، پروفایل‌سازی و پیش‌پردازش آغاز می‌شود و پس از آن کار پاکسازی داده‌ها برای رفع خطاها و سایر مشکلات کیفیت داده‌ها انجام می‌شود. تبدیل داده ها همچنین برای سازگاری مجموعه داده ها انجام می شود، مگر اینکه یک دانشمند داده به دنبال تجزیه و تحلیل داده های خام فیلتر نشده برای یک برنامه خاص باشد.

در این مرحله سلسله فرآیند‌هایی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مسئله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری مدل،  پالایش شده و آماده می‌شود. این عملیات عبارتند از:

پاکسازی داده (Data Cleaning)

انتخاب زیر مجموعه ویژگی (Feature Subset Selection)

فیلترینگ نمونه ها (Sample Filtering)

نمونه گیری (Sampling)

تبدیل داده (Data Transformation)

گسسته سازی (Discretization)

کاهش ابعاد ((Dimensionality Reduction

انبوهش داده (Data Aggregation)

خلق ویژگی (Feature Creation)

نکته: مهمترین مرحله در آماده‌سازی داده‌ها، پاکسازی داده است که بین 60 تا 80 درصد یک پروژه داده‌کاوی را در برمی‌گیرد. کیفیت پایین داده یکی از مسائل رایج داده است. فرآیند هایی که مشکلات داده را برطرف می‌کند، پاکسازی داده گفته می‌شود. مسائلی که کیفیت داده ها را به خطر می‌اندازند به شرح ذیل است:

نویز (Noise)، نمونه‌های پرت (outliers)، مقادیر از دست رفته (Missing Values) و داده های دونسخه‌ای یا تکراری (Duplicate Data).

استخراج داده ها

هنگامی که داده ها آماده شدند، یک دانشمند داده تکنیک داده کاوی مناسب را انتخاب می کند و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی می کند. در برنامه‌های یادگیری ماشین، الگوریتم‌ها معمولاً باید بر روی مجموعه داده‌های نمونه آموزش داده شوند تا قبل از اجرای آن‌ها با مجموعه کامل داده‌ها، به دنبال اطلاعاتی باشند که به دنبال آن هستند.

یادگیری مدل داده کاوی

پس از آماده‌سازی داده‌ها در فرآیند داده‌کاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل، نظم حاکم بر داده‌های پیش‌پردازش شده، با توجه به روش کاوش داده‌ای که انتخاب می‌شود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد.

سه روش پر کاربرد در داده کاوی، دسته بندی (Classification)، خوشه بندی (Clustering) و کاوش قوانین انجمنی (Association rules) است. انواع متنوعی از الگوریتم‌های مطرح یادگیری مدل، برای هر کدام از سه روش داده کاوی مذکور وجود دارند، که در ادامه روش دسته بندی تشریح خواهد شد.

ارزیابی و تفسیر مدل

در این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار می­گیرد. منظور از ارزیابی دانش آن است که می‌بایست میزان صحت دانش تولید شده  مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم.

نتایج داده کاوی برای ایجاد مدل های تحلیلی استفاده می شود که می تواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. دانشمند داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافته ها را به مدیران تجاری و کاربران، اغلب از طریق تجسم داده ها و استفاده از تکنیک های داستان سرایی داده، در میان بگذارد.

انواع تکنیک های داده کاوی

تکنیک های مختلفی را می توان برای استخراج داده ها برای کاربردهای مختلف علم داده استفاده کرد. تشخیص الگو یک مورد رایج استفاده از داده کاوی است که با تکنیک های متعدد فعال می شود، همانطور که تشخیص ناهنجاری است، که هدف آن شناسایی مقادیر پرت در مجموعه داده ها است. تکنیک های رایج داده کاوی شامل انواع زیر است:

  • استخراج قوانین انجمن: در داده کاوی، قواعد تداعی عبارات if-then هستند که روابط بین عناصر داده را مشخص می کنند. معیارهای پشتیبانی و اطمینان برای ارزیابی روابط مورد استفاده قرار می‌گیرند – پشتیبانی تعداد دفعات ظاهر شدن عناصر مرتبط در یک مجموعه داده را اندازه‌گیری می‌کند، در حالی که اطمینان نشان‌دهنده تعداد دفعاتی است که یک عبارت if-then دقیق است.
  • طبقه بندی: این رویکرد، عناصر موجود در مجموعه داده ها را به دسته های مختلفی که به عنوان بخشی از فرآیند داده کاوی تعریف شده اند، اختصاص می دهد. درختان تصمیم، طبقه‌بندی‌کننده‌های ساده بیز، k-نزدیک‌ترین همسایه و رگرسیون لجستیک نمونه‌هایی از روش‌های طبقه‌بندی هستند.
  • خوشه بندی: در این مورد، عناصر داده‌ای که ویژگی‌های خاصی را به اشتراک می‌گذارند، به عنوان بخشی از برنامه‌های داده کاوی، در خوشه‌هایی گروه‌بندی می‌شوند. نمونه‌ها شامل خوشه‌بندی k-means، خوشه‌بندی سلسله مراتبی و مدل‌های مخلوط گاوسی است.
  • رگرسیون: این روش دیگری برای یافتن روابط در مجموعه داده ها با محاسبه مقادیر داده های پیش بینی شده بر اساس مجموعه ای از متغیرها است. رگرسیون خطی و رگرسیون چند متغیره نمونه هایی هستند. درختان تصمیم و برخی روش های طبقه بندی دیگر نیز می توانند برای انجام رگرسیون استفاده شوند.
  • تحلیل توالی و مسیر: همچنین می‌توان داده‌ها را استخراج کرد تا به دنبال الگوهایی بگردند که در آن مجموعه خاصی از رویدادها یا ارزش‌ها به رویدادهای بعدی منتهی می‌شوند.
  • شبکه های عصبی: شبکه عصبی مجموعه ای از الگوریتم هایی است که فعالیت مغز انسان را شبیه سازی می کند. شبکه‌های عصبی به‌ویژه در کاربردهای پیچیده تشخیص الگو که شامل یادگیری عمیق، شاخه پیشرفته‌تری از یادگیری ماشین است، مفید هستند.

نرم افزارهای مورد استفاده در داده کاوی

ابزارهای داده کاوی از تعداد زیادی از فروشنده در دسترس هستند، معمولاً به عنوان بخشی از پلتفرم های نرم افزاری که شامل انواع دیگری از علم داده و ابزارهای تجزیه و تحلیل پیشرفته نیز می شود. ویژگی‌های کلیدی ارائه شده توسط نرم‌افزار داده کاوی شامل قابلیت‌های آماده‌سازی داده، الگوریتم‌های داخلی، پشتیبانی از مدل‌سازی پیش‌بینی‌کننده، یک محیط توسعه مبتنی بر رابط کاربری گرافیکی، و ابزارهایی برای استقرار مدل‌ها و امتیازدهی به نحوه عملکرد آن‌ها است.

فروشندگانی که ابزارهایی را برای داده کاوی ارائه می دهند عبارتند از Alteryx، AWS، Databricks، Dataiku، DataRobot، Google، H2O.ai، IBM، Knime، Microsoft، Oracle، RapidMiner، SAP، SAS Institute و Tibco Software و غیره.

انواع فناوری های منبع باز رایگان نیز می توانند برای استخراج داده ها استفاده شوند، از جمله DataMelt، Elki، Orange، Rattle، scikit-learn و Weka. برخی از فروشندگان نرم افزار گزینه های منبع باز را نیز ارائه می دهند. به عنوان مثال، Knime یک پلت فرم تجزیه و تحلیل منبع باز را با نرم افزار تجاری برای مدیریت برنامه های علم داده ترکیب می کند، در حالی که شرکت هایی مانند Dataiku و H2O.ai نسخه های رایگان ابزارهای خود را ارائه می دهند.

مزایای داده کاوی چیست؟

  • بازاریابی و فروش موثرتر: داده کاوی به بازاریابان کمک می کند رفتار و ترجیحات مشتری را بهتر درک کنند، که آنها را قادر می سازد تا کمپین های بازاریابی و تبلیغات هدفمند ایجاد کنند. به طور مشابه، تیم های فروش می توانند از نتایج داده کاوی برای بهبود نرخ تبدیل سرنخ و فروش محصولات و خدمات اضافی به مشتریان فعلی استفاده کنند.
  • خدمات بهتر به مشتریان: به لطف داده کاوی، شرکت‌ها می‌توانند مشکلات بالقوه خدمات مشتری را سریع‌تر شناسایی کنند و اطلاعات به‌روز را در اختیار نمایندگان مرکز تماس قرار دهند تا از آنها در تماس‌ها و چت‌های آنلاین با مشتریان استفاده کنند.
  • بهبود مدیریت زنجیره تامین: سازمان‌ها می‌توانند روندهای بازار را شناسایی کرده و تقاضای محصول را با دقت بیشتری پیش‌بینی کنند و به آنها امکان مدیریت بهتر موجودی کالاها و لوازم را می‌دهند. مدیران زنجیره تامین همچنین می توانند از اطلاعات داده کاوی برای بهینه سازی انبارداری، توزیع و سایر عملیات لجستیکی استفاده کنند.
  • افزایش زمان تولید: استخراج داده‌های عملیاتی از حسگرهای ماشین‌های تولیدی و سایر تجهیزات صنعتی، از برنامه‌های تعمیر و نگهداری پیش‌بینی‌کننده برای شناسایی مشکلات احتمالی قبل از وقوع پشتیبانی می‌کند و به جلوگیری از خرابی برنامه‌ریزی نشده کمک می‌کند.
  • مدیریت ریسک قوی­تر: مدیران ریسک و مدیران کسب‌وکار می‌توانند ریسک‌های مالی، حقوقی، امنیت سایبری و سایر ریسک‌های یک شرکت را بهتر ارزیابی کنند و برای مدیریت آن‌ها برنامه‌ریزی کنند.
  • هزینه های پایین­تر: داده کاوی به صرفه جویی در هزینه از طریق کارایی عملیاتی در فرآیندهای تجاری و کاهش افزونگی و اتلاف در مخارج شرکت کمک می کند.

در نهایت، ابتکارات داده کاوی می تواند منجر به درآمد و سود بالاتر و همچنین مزیت های رقابتی شود که شرکت ها را از رقبای تجاری خود متمایز می کند.

نمونه های استفاده از داده کاوی در صنایع مختلف

  • خرده فروشی: خرده‌فروشان آنلاین داده‌های مشتری و سوابق جریان کلیک اینترنتی را استخراج می‌کنند تا به آنها کمک کنند تا کمپین‌های بازاریابی، تبلیغات و پیشنهادات تبلیغاتی را برای خریداران فردی هدف قرار دهند. داده‌کاوی و مدل‌سازی پیش‌بینی‌کننده همچنین موتورهای توصیه‌ای را نیرو می‌دهد که خریدهای احتمالی را به بازدیدکنندگان وب‌سایت و همچنین فعالیت‌های مدیریت موجودی و زنجیره تأمین پیشنهاد می‌کنند.
  • خدمات مالی: بانک ها و شرکت های کارت اعتباری از ابزارهای داده کاوی برای ساخت مدل های ریسک مالی، شناسایی تراکنش های تقلبی و درخواست های وام و اعتبار استفاده می کنند. داده کاوی همچنین نقش کلیدی در بازاریابی و شناسایی فرصت های بالقوه افزایش فروش با مشتریان فعلی دارد.
  • بیمه: بیمه‌گران برای کمک به قیمت‌گذاری سیاست‌های بیمه و تصمیم‌گیری در مورد تایید برنامه‌های سیاست، از جمله مدل‌سازی ریسک و مدیریت برای مشتریان احتمالی، به داده‌کاوی متکی هستند.
  • تولید: کاربردهای داده کاوی برای تولیدکنندگان شامل تلاش برای بهبود زمان و کارایی عملیاتی در کارخانه های تولید، عملکرد زنجیره تامین و ایمنی محصول است.
  • سرگرمی: سرویس‌های استریم داده‌کاوی را انجام می‌دهند تا آنچه را که کاربران تماشا می‌کنند یا گوش می‌دهند و توصیه‌های شخصی‌سازی‌شده بر اساس عادات تماشا و شنیدن افراد ارائه دهند.
  • مراقبت های بهداشتی: داده کاوی به پزشکان در تشخیص شرایط پزشکی، درمان بیماران و تجزیه و تحلیل اشعه ایکس و سایر نتایج تصویربرداری پزشکی کمک می کند. تحقیقات پزشکی نیز به شدت به داده کاوی، یادگیری ماشینی و سایر اشکال تجزیه و تحلیل بستگی دارد.

داده کاوی در مقابل تجزیه و تحلیل داده و انبار داده

داده کاوی گاهی اوقات به عنوان مترادف با تجزیه و تحلیل داده در نظر گرفته می شود. اما عمدتاً به عنوان یک جنبه خاص از تجزیه و تحلیل داده ها در نظر گرفته می شود که تجزیه و تحلیل مجموعه داده های بزرگ را برای کشف اطلاعاتی که در غیر این صورت قابل شناسایی نبود، خودکار می­کند. سپس این اطلاعات می­تواند در فرآیند علم داده و سایر برنامه های کاربردی BI و تجزیه و تحلیل استفاده شود.

انبار داده با ارائه مخازن برای مجموعه داده ها از تلاش های داده کاوی پشتیبانی می کند. به طور سنتی، داده‌های تاریخی در انبارهای داده سازمانی یا بازارهای داده کوچک‌تر که برای واحدهای تجاری منفرد یا برای نگهداری زیرمجموعه‌های خاصی از داده‌ها ساخته شده‌اند، ذخیره می‌شوند. با این حال، اکنون برنامه‌های داده کاوی اغلب توسط دریاچه‌های داده ارائه می‌شوند که هم داده‌های تاریخی و هم داده‌های جریانی را ذخیره می‌کنند و بر اساس پلتفرم‌های کلان داده مانند Hadoop و Spark، پایگاه‌های داده NoSQL یا سرویس‌های ذخیره‌سازی اشیای ابری هستند.

تاریخچه و ریشه های داده کاوی چیست ؟

فن آوری های ذخیره سازی داده، BI و تجزیه و تحلیل در اواخر دهه 1980 و اوایل دهه 1990 شروع به ظهور کردند و توانایی افزایش یافته ای را برای تجزیه و تحلیل حجم فزاینده ای از داده هایی که سازمان ها ایجاد و جمع آوری می کردند را فراهم کردند. اصطلاح داده کاوی تا سال 1995 مورد استفاده قرار گرفت، زمانی که اولین کنفرانس بین المللی کشف دانش و داده کاوی در مونترال برگزار شد.

این رویداد توسط انجمن پیشرفت هوش مصنوعی یا AARI حمایت می شود که همچنین این کنفرانس را سالانه برای سه سال آینده برگزار می کند. از سال 1999، این کنفرانس – که عموماً به عنوان KDD 2021 و غیره شناخته می شود – عمدتاً توسط SIGKDD، گروه مورد علاقه ویژه در زمینه کشف دانش و داده کاوی در انجمن ماشین های محاسباتی سازماندهی شده است.

یک مجله فنی به نام Data Mining and Knowledge Discovery اولین شماره خود را در سال 1997 منتشر کرد. در ابتدا به صورت فصلی، اکنون هر دو ماه یکبار منتشر می شود و حاوی مقالات بررسی شده در مورد داده کاوی و نظریه ها، تکنیک ها و شیوه های کشف دانش است. نشریه دیگری، مجله آمریکایی داده کاوی و کشف دانش، در سال 2016 راه اندازی شد.

با توجه به مطالبی که درباره داده کاوی مطرح شد  خدماتی که در این حوزه  شرکت‌های آماری ارائه می‌دهند را در صفحه اختصاصی داده‌ کاوی می توانید ببینید. یکی از خدمات شرکت آمار تحلیل داده‌های حجیم سازمانی و داده کاوی است که می توانید برای دریافت آن با سایت آمار پیشرو ارتباط برقرار کنید.

در این مطلب سعی کردیم کلیات اصلی دده کاوی را به شما آموزش دهیم. برای دریافت اطلاعات بیشتر و محتوا های بیشتر درباره موضوعات آماری و داده کاوی می توانید صفحه اینستاگرام آمار پیشرو را دنبال کنید.

داده کاوی چیست؟

داده کاوی استخراج اطلاعات پنهان و یا روش‌ها و روابط نهان در حجم زیادی از داده‌ها است .

مراحل داده کاوی چیست؟

فرایند داده کاوی شامل سه مرحله است، آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل

چه نرم افزارهایی در داده کاوی مورد استفاده قرار می گیرد؟

برای انجام داده‌کاوی و پیاده‌سازی الگوریتم‌های مربوط به آن می‌توان از نرم‌افزارهای برنامه‌نویسی R، MATLAB و Pythonو نرم‌افزارهای RapidMiner، SPSS Modeler، SAS JMP، Weka و … استفاده نمود.

مثالی برای داده کاوی؟

فرض کنید بخواهیم مشتریان یک بانک را برای گرفتن وام طبقه‌بندی کنیم.

برای امتیاز به این نوشته کلیک کنید!
[کل: 2 میانگین: 5]

این مقاله را با دوستان خود به اشتراک بگذارید

اشتراک گذاری در توییتر
اشتراک گذاری در تلگرام
اشتراک گذاری در واتساپ
اشتراک گذاری با ایمیل

بیشتر بخوانید

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بیشتر بخوانید

ثبت سفارش

جهت سفارش کافیست تا فرم زیر را پر کنید. کارشناسان آمار پیشرو در اسرع وقت با شما تماس می گیرند

مشاوره رایگان

جهت دریافت مشاوره رایگان تنها کافیست نام و تلفن خود را وارد کنید تا کارشناسان آمار پیشرو در اسرع وقت با شما تماس بگیرند

کار خودتان را راحت کنید

همین الان می توانید با کارشناسان ما به صورت کاملا رایگان مشاوره کنید و یا سفارش خود را ثبت و ادامه کار را به تیم توانمند آمار پیشرو بسپارید و از این همکاری لذت ببرید