بدون شک یکی از بخش های مهم تجزیه و تحلیل داده ها پاکسازی داده است. البته اگر به شکل درست و موثر انجام شود. سوال اینجاست که اصلا پاکسازی داده یا data cleaning چیست؟ چگونه انجام میشود و چه اهمیتی دارد؟ در این مقاله به تمام این پرسش ها پاسخ خواهیم داد. در ادامه این مقاله با ما همراه باشید تا بیشتر درباره پاکسازی داده ها بدانید.
قبل از اینکه به پاکسازی داده ها برسیم با توجه به اینکه پاکسازی داده ها یکی از مراحل داده کاوی است. یک تعریف کوتاهی از داده کاوی ارائه می دهیم
داده کاوی مستلزم ارزیابی داده های جمع آوری شده قبلی به منظور استخراج اطلاعات جدید و بامعنا است.
مقاله داده کاوی چیست
در حال حاضر پاکسازی داده یکی از مهمترین فاکتورها برای هر کسب و کاری است. اولین قدم برای تازه کارها برای شروع این کار، افزودن و تکمیل اطلاعات خود و همچنین به روز بودن در این زمینه است.تمیز کردن و پاکسازی داده ها بخش جدایی ناپذیری از تجزیه و تحلیل داده ها است. زیرا اگر داده های به دست آمده شما، دارای خطا و تناقض باشند بدون شک نتایج به دست آمده هم ناقص و اشتباه خواهند بود. در نتیجه تصمیم ها و انتخاب های شما نیز اشتباه خواهند بود.
پس یکی از مهم ترین مراحل داده کاوی پاکسازی است. برای اینکه از اهمیت موضوع داده کاوی در کسب و کارها را ببینید اینجا کلیک کنید.همچنین شرکت امار پیشرو آماده است تا خدات مرتبط با داده کاوی برای کسب و کار ها را به نحو احسنت انجام دهد، به همین منظور کافیست در این لینک ثبت سفارش کنید تا در اولین فرصت با شما تماس بگیرند
در زمینه هایی مانند بازاریابی اینترنتی، بررسی داده های متناقض و اشتباه به معنای هدر دادن پول در راه رسیدن به اهداف اشتباه است. در حالی که این مسئله در زمینه های علمی یا پزشکی می تواند حتی به معنای مرگ و زندگی یک نفر باشد. در این مقاله به شکلی دقیق چیستی پاکسازی داده و دلیل اهمیت آن را بررسی خواهیم کرد. در ادامه همچنین به چند نکته مهم که باید در هنگام پاکسازی داده ها در نظر داشته باشید نیز اشاره خواهیم کرد.
سوالاتی که در این مقاله به آنها پاسخ خواهیم داد.
· پاکسازی داده چیست؟
· پاکسازی داده چه اهمیتی دارد؟
· پاکسازی داده چگونه انجام می شود؟
· مفیدترین ابزارهای پاکسازی داده کدام است؟
پاکسازی داده چیست؟
پاکسازی داده (data cleaning) که با نام data cleansing نیز شناخته می شود یکی از مهم ترین و ابتدایی ترین کارهایی است که باید پیش از تجزیه و تحلیل داده ها انجام شود. پاکسازی و تمیز کردن داده در واقع شامل آماده سازی و اعتبارسنجی داده ها است. این کار معمولا پیش از انجام هرگونه تجزیه و تحلیل انجام می شود. با این که اغلب در زمان انجام این کار ممکن است داده هایی حذف شوند اما پاکسازی داده تنها به معنای حذف کردن داده ها نیست. بلکه بیشتر به معنای شناسایی داده های مشکل دار و در صورت امکان تصحیح آنها است.
داده های مشکل دار یا Rogue data، داده ها و اطلاعات ناقص، اشتباه، نامرتب، خراب و همچنین به اشتباه قالب بندی شده هستند. پاکسازی داده همچنین شامل ادغام و یا حذف داده های تکراری و یکسان و یا به اصطلاح deduplicating و یا deduping است.
چرا دادهها باید پاکسازی شود؟
پاسخ ساده است. اگر این کار را انجام ندهید نتایج تحلیل ها و بررسی های شما اشتباه خواهند بود. به خصوص از آن جایی که بررسی داده ها به منظور گرفتن تصمیمات درست تجاری انجام می شود. داده هایی که مورد تجزیه و تحلیل قرار می گیرند باید کاملا دقیق و مطمئن باشند. شاید به نظر برسد که تنها حذف داده های ناقص، برای شروع آنالیز داده ها کافی است؛ اما مطمئنا این طور نیست. اگر تنها داده های ناقص و اشتباه را حذف کنید یک مجموعه از اطلاعات ناقص برای بررسی خواهید داشت. این مسئله به اندازه بررسی داده های اشتباه، در نتایج تحلیل شما تاثیر منفی خواهد گذاشت.
به همین دلیل یکی از اهداف اصلی پاکسازی داده، ایجاد کمترین تغییر در داده های به دست آمده است. این مسئله به کامل بودن داده های شما کمک کرده و باعث بهبود نتیجه های به دست آمده و داشتن اطمینان بیشتر به نتیجه گیری ها خواهد شد.
پاکسازی داده ها نه تنها برای آنالیزها بلکه برای تمامی کسب و کارها از اهمیت ویژه ای برخوردار است. داده های کسب و کارها، به خصوص کسب و کارهای بزرگ، پیوسته در حال تغییر و بیشتر شدن هستند. به همین دلیل نگهداری منظم دیتابیس به شما در داشتن مجموعه اطلاعات کامل تر کمک می کند. انجام این کار البته مزیت های دیگری نیز دارد که در ادامه به آنها خواهیم پرداخت.
در این مقاله نحوه حذف موارد تکراری و مدیریت بهتر داده های از دست رفته را در یک دیتابیس واقعی خواهید آموخت.
پاکسازی داده چه اهمیتی دارد؟
یکی از معروف ترین اصطلاحات در آنالیز داده ها واژه GIGO است. GIGO مخفف عبارت ‘garbage in, garbage out’ است؛ اما این اصطلاح که توسط تحلیلگران داده استفاده می شود به چه معنا است؟
در واقع GIGO به این معنی است که اگر کیفیت و نظم داده های شما از میزانی مشخص کمتر باشد مطمئنا نتیجه گیری شما از این داده ها ناقص و اشتباه خواهند بود. حتی اگر مراحل دیگر آنالیز خود را به بهترین و کامل ترین شکل انجام داده باشید؛ ولی باز هم داده های شما کم کیفیت و بی نظم باشند، فرقی برای شما نخواهد داشت. به همین دلیل است که پاکسازی داده مسئله ای قابل چشم پوشی نیست. این کار مانند ساخت پی ساختمان است. اگر پی و اساس ساختمان خود را درست بسازید. ساختمانی قوی تر و با دوام تری خواهید داشت. اگر این کار را درست انجام ندهید می توانید مطمئن باشید که ساختمان و یا سازه شما فرو خواهد ریخت.
به همین دلیل است که تحلیلگران بین 60 تا 80 درصد از زمان خود را به پاکسازی داده اختصاص می دهند. همچنین انجام این کار علاوه بر موارد ذکر شده در بالا مزیت های دیگری نیز دارند.
مزایای اصلی پاکسازی دادهها
همان طور که بیان شد پاکسازی داده در نتیجه گیری شما از داده ها موثر خواهد بود. البته کیفیت داده یا data quality مزایای دیگری نیز دارد.
- سازماندهی و منظم شدن داده ها: کسب و کارهای امروزه اطلاعات و داده های بسیار زیادی را از مخاطبان، مشتریان و کاربران خدمات و یا محصولات خود جمع آوری می کنند. این داده ها شامل آدرس، تلفن، اطلاعات بانکی و غیره است. پاکسازی داده در واقع به معنای مرتب نگه داشتن این داده ها و اطلاعات و همچنین ذخیره کردن ایمن، برای به کاربردن موثرتر آن ها است.
- جلوگیری از وقوع اشتباهات: داده های پاکسازی نشده فقط در تجزیه و تحلیل ها مشکل ایجاد نمی کنند. بلکه بر عملکردهای روزانه کسب و کارها نیز تاثیر منفی می گذارند. تیم های بازاریابی معمولا از یک دیتابیس یا پایگاه داده برای جمع آوری اطلاعات کاربران خود استفاده می کنند. اگر دیتابیس منظم و پاکسازی شده باشد؛ آن ها به اطلاعات مفیدتر و دقیق تری دسترسی خواهند داشت. اما در صورت عدم انجام این کار، وقوع هرگونه اشتباه، اجتناب ناپذیر است. یکی از معمول ترین نتایج داده های پاکسازی نشده ارسال ایمیل های اشتباه برای کاربران است.
- افزایش بهره وری: پاکسازی و به روز رسانی منظم داده ها باعث حذف سریع تر داده های به درد نخور خواهد شد. این مسئله باعث جلوگیری از اتلاف وقت و انرژی کارکنان کسب و کارها میشود.
- جلوگیری از ایجاد هزینه های غیر ضروری: تصمیم گیری تجاری با اتکا به داده های پاکسازی نشده می تواند باعث ایجاد هزینه های زیاد برای کسب و کار شما شود. همچنین اتکا به این گوه داده ها می تواند هزینه های دیگری نیز برای شما به وجود آورد. حتی چیزهای ساده مانند خطاهای معمول پردازشی می توانند به مشکلات بزرگ و پیچیده تر تبدیل شوند. بررسی منظم و پاکسازی داده ها به شما این امکان را می دهد تا خطاها را سریع تر تشخیص دهید. همین مسئله فرصتی است تا شما قبل از هزینه ساز و زمانبر شدن این مشکلات آن ها را اصلاح کنید.
- بهبود برنامه ریزی ها و هدف گذاری ها: کسب و کارهای مختلف به شکل فزاینده ای به دنبال بهبود شرایط زیرساخت های داخلی خود هستند. کسب و کارها و مجموعه های گوناگون برای انجام این کار معمولا از تحلیلگران برای مدل سازی و تنظیم داده ها استفاده می کنند. داشتن دادهای تمیز و پاکسازی شده از همان ابتدا انجام این کار را برای آن ها آسان می کند. به همین دلیل داشتن داده های آماده اقدامی بسیار معقول برای آنان است.
کلید داشتن داده های مناسب و پاکسازی شده توجه به کیفیت داده ها است. کیفیت داده یعنی اطلاعاتی که از نظر عینی و ذهنی برای رسیدن به یک هدف خاص جمع آوری شده اند. البته ویژگی های دیگری نیز هستند که بر کیفیت داده های جمع آوری شده شما تاثیر می گذارند. مانند: کامل بودن اطلاعات، سازگاری آنها، به موقع بودن، اعتبار و منحصر به فرد بودن.
آموزش گام به گام پاکسازی دادهها
تا به این جای مقاله ما به چیستی و اهمیت پاکسازی داده یا data cleaning پرداختیم. در ادامه به شکلی گام به گام به روش پاکسازی موثر داده ها خواهیم پرداخت. البته باید اشاره کرد که روش ها و فرایندهای گوناگونی برای انجام این کار وجود دارد. ما در این مقاله به یکی از بهترین فرایندهای انجام این کار اشاره خواهیم کرد.
مرحله اول: داده های به درد نخور را دور بریزید.
اولین مرحله هر گونه فرایند پاکسازی داده، حذف اطلاعات به درد نخور است. داده هایی که با مشکلی که می خواهید حل کنید و یا هدف شما از تجزیه و تحلیل داده ها هم خوانی ندارند و به نوعی به نیاز شما نامربوط هستند را حذف کنید. به عنوان مثال اگر بخواهیم با جمع آوری داده ها تحلیلی از عادات غذایی گیاه خواری داشته باشیم؛ می توانیم داده ها و اطلاعات مربوط به گوشت خواری را از داده های خود حذف کنیم. این مرحله همچنین شامل حذف داده های تکراری نیز می شود. داشتن داده های تکراری می تواند به دلایلی مانند ترکیب چند داده، دستکاری داده ها و یا جمع آوری داده ها از اشخاص ثالث اتفاق بیافتد.
مرحله دوم: خطاهای ساختاری را رفع کنید.
خطاهای ساختاری معمولا به خاطر نگهداری ضعیف از داده ها رخ می دهند. این خطاها شامل مواردی مانند اشتباه های تایپی و حروفی هستند که اغلب در صورت ورود دستی داده ها اتفاق می افتند. به عنوان مثال یکی از اشتباهات متداول، به ویژه در داده های انگلیسی، استفاده از حروف کوچک و بزرگ است. به عنوان مثال می توانید کلمه آهن را در نظر بگیرید. این واژه در زبان انگلیسی ممکن است به دو شکل iron و یا Iron نوشته شود. همین مشکل باعث میشود این دو واژه در دسته های جداگانه قرار بگیرند. اطمینان از عدم وقوع چنین خطاهایی استفاده از داده ها را ساده و راحت تر می کند. همچنین فراموش نکنید که باید نام ها و اشتباهاتی که ممکن است در دسته بندی ها رخ دهند را بررسی کنید. موارد دیگری که باید به آن ها دقت کنید علائم نگارشی مانند خط تیره و زیر خط است.
مرحله سوم: داده های خود را استانداردسازی کنید.
استانداردسازی داده ها بسیار شبیه به رفع خطاهای ساختاری است. درواقع با انجام این کار یک قدم فراتر می گذارید.
علاوه بر تصحیح نگارش از درست و یکسان بودن قوانین اطمینان حاصل کنید. به عنوان مثال باید برای تمام واژه ها یک نوع نگارش ثابت در نظر بگیرید.
همچنین استانداردسازی در فرایند پاکسازی دادهها به این مفهوم است که برای تمام داده های عددی یک واحد اندازه گیری داشته باشید. به عنوان مثال در اعدادی که به فاصله اشاره دارند باید یکی از دو واحد کیلومتر و یا مایل را در نظر گرفت. همچنین حتما باید از یکی بودن فرمت تاریخ ها مانند قمری، شمسی و میلادی اطمینان حاصل کنید. البته در زمان انجام این اصلاحات باید مراقب باشید که داده ای را با این گونه اشتباهات از دست ندهید.
مرحله چهار: داده های ناخواسته و نامربوط را حذف کنید.
داده های ناخواسته و یا پرت اطلاعاتی هستند که با سایر مجموعه داده ها اختلاف چشمگیری دارند. این داده ها ممکن است در انواع مدل تجزیه و تحلیل ها مشکل ایجاد کنند. به عنوان مثال در عین حال که داده های گوناگون می توانند یک الگوریتم دقیق درختی برای تصمیم گیری بسازند؛ اما داده های پرت به راحتی مدل الگوریتمی تصمیم گیری شما را تغییر خواهند داد. درست است که اطلاعات به درد نخور می توانند در نتیجه تجزیه و تحلیل شما تاثیر منفی بگذارند اما همیشه باید در حذف آن ها احتیاط بسیاری به خرج دهید. به همین دلیل تنها در صورتی که از نامناسب و اشتباه بودن داده ها مطمئن بودید آن ها را حذف کنید. به عنوان مثال هنگامی که یک داده به دلیل ورود اطلاعات نادرست اشتباه شده و یا اگر در مقایسه با مجموعه های استاندارد هیچ مطابقتی نداشته باشد.
مرحله پنجم: خطای داده های متناقض را حذف کنید.
یکی از مشکلات رایج که در پاکسازی داده رخ می دهد. مواجهه با خطاهای متناقض است. خطاهای متناقض زمانی رخ می دهند که شما یک داده ناسازگار با داده های دیگر دارید. یک مثال از داده های متناقض می تواند گزارش زمان مسابقه ورزشکاران باشد. اگر ستون کل مدت زمان دویدن ورزشکاران با مجموع کل زمان مسابقه یکی باشد. شما با یک خطای متناقض مواجه شده اید. به عنوان مثالی دیگر زمانی که مالیات حقوق یک کارمند از میزان حقوقش بیشتر باشد و یا در درس هایی که تنها گزینه های قبولی و رد وجود دارد نمره ای برای دانش آموز ثبت شود.
مرحله ششم: رفع خطاهایی که در هنگام تغییر نوع و یا تبدیل دسته بندی ها رخ می دهند.
اگر تمام مراحل قبل را به درستی انجام دهید ممکن است داده های شما خوب و دقیق به نظر برسند. با این حال علاوه بر ظاهر باید پشت صحنه را نیز در هنگام پاکسازی داده ها بررسی کنید. خطاهای تبدیل به مشکلاتی اشاره دارند که شما ممکن است در تغییر تایپ داده ها خود با آنها مواجه شوید. به عنوان یک مثال ساده، داده های عددی و ارزی را در نظر بگیرید. هر دو عدد هستند اما ارزش عدد داده ارزی را نوع ارز آن تعیین می کند. همچنین باید از درست بودن تایپ داده های خود اطمینان حاصل کنید. مطمئن باشید که تمام داده های عددی به شکل اعداد هم ارزش، داده های متنی به شکل متن و داده های تاریخی به یک شکل در میان داده های مورد بررسی شما قرار دارند. اگر هر خطایی در مرحله دوم اصلاح نشده است. هم اکنون زمان رفع و حذف این خطا فرا رسیده است.
مرحله هفت: جلوی از دست رفتن داده ها را بگیرید.
وقتی داده ای را از دست داده اید چه کاری باید انجام دهید؟ سه روش برای حل این مشکل وجود دارد. اولین روش حذف دیگر اطلاعات ورودی مرتبط با داده های از دست رفته است. روش دوم آن است که داده های از دست رفته را بر اساس داده های مشابه آن حدس بزنید. البته باید خاطر نشان کرد که هر دو این روش ها در پاکسازی داده ها بر تجزیه و تحلیل شما از داده ها تاثیر منفی خواهند گذاشت. حذف داده اغلب به معنای از دست رفتن برخی از داده های مهم است. از طرف دیگر حدس زدن داده ها نیز ممکن است موجب تقویت الگوهای موجود در بررسی های شما شود. هر دو این کارها ممکن است بر نتیجه گیری و تصمیمات شما تاثیر منفی بگذارند. روش سوم به نسبت روش بهتری است.
روش سوم این است که داده ها را به عنوان داده های گمشده علامت گذاری کنید. حداقل با انجام این کار هنگام تجزیه و تحلیل داده ها شما این مسئله را در نظر خواهید گرفت و خود این مطلب به تنهایی می تواند آموزنده و کارآمد باشد.
مرحله هشت: مجموعه داده ها را اعتبار سنجی کنید.
پس از پاکسازی داده ها مرحله آخر اعتبارسنجی آنان است. اعتبارسنجی داده ها به معنای بررسی کامل بودن فرایند پاکسازی داده ها یعنی اصلاح، حذف، استانداردسازی و غیره است. این مرحله شامل مجموعه کارهایی است که انجام می دهید تا داده ها را با توجه به قوانین و روال بررسی کنید تا دریابید که آن ها با پیش بینی های تعریف شده شما مطابقت دارند یا نه. همچنین می توانید اعتبارسنجی را بر اساس استانداردهای طلایی نیز انجام دهید.
تمام موارد گفته شده در اعتبارسنجی داده ها شاید کمی فنی به نظر برسد. در واقع تنها چیزی که واقعا باید در این مرحله بدانید این است که اعتبارسنجی به معنای بررسی داده ها برای آماده کردن آن ها برای تجزیه و تحلیل نهایی است. اگر خطاهایی در پاکسازی داده ها وجود دارد باید به عقب برگردید و این خطاها را رفع کنید.
همین مسائل است که باعث می شود تحلیلگران بیشتر وقت خود را صرف پاکسازی داده ها کنند.
معرفی ابزار پاکسازی دادهها
حال که فرایند پاکسازی داده ها را توضیح دادیم باید به این نکته بپردازیم که چه ابزارهایی ممکن است در انجام این کار به ما کمک کنند؟ پاسخ این سوال به نوع داده ها و نوع سیستمی که از آن استفاده می کنید بستگی دارد. با این وجود در ادامه به چند مورد از پایه ای ترین ابزارها برای انجام این کار اشاره می کنیم.
پاکسازی داده ها با مایکروسافت اکسل
چه این ابزار را دوست داشته باشید چه نداشته باشید مایکروسافت اکسل یکی از اصلی ترین ابزار محاسبات است. از اکسل با توجه به داشتن بسیاری توابع داخلی برای خودکار کردن فرآیند پاکسازی داده ها، از حذف و جایگزینی اعداد گرفته تا شکل دادن به ستون ها و ردیف ها، و یا برای ترکیب ستون های مختلف استفاده می شود. همچنین یادگیری آن نسبتا آسان است. این مسئله آن را به اولین ابزار برای اکثر تحلیلگران داده تبدیل می کند.
پاکسازی داده ها با زبان برنامه نویسی
اغلب پاکسازی داده ها با استفاده از اسکریپت هایی انجام می شوند که این فرآیند را به شکل خودکار انجام می دهند. این در واقع کاری است که اکسل با توابع از قبل موجود خود انجام می دهد. با این حال انجام پردازش های خاص بر روی مجموعه داده های بزرگ و پیچیده اغلب به معنای نوشتن اسکریپت ها توسط خودتان است.
این کار معمولا به کمک زبان های برنامه نویسی نظیر Python، Ruby، SQL و یا اگر برنامه نویسی کاربلد هستید به کمک R که یکی از پیچیده ترین زبان ها است انجام می شود. آموزش زبان برنامه نویسی R کلیک کنید. آموزش زبان برنامه نویسی پایتون کلیک کنید. در حالی که بسیاری از تحلیلگران بسیاری از اسکریپت های خود را رمزگذاری می کنند اما بسیاری از این اسکریپت های آماده را به راحتی می توان در اینترنت پیدا کرد. به عنوان مثال Python از جمله زبان هایی است که تعداد زیادی اسکریپت آماده دارد که می تواند در پاکسازی داده ها به شما کمک کنند مانند Pandas و NumPy.
پاکسازی داده ها با آمار تجسمی
تصویرسازی داده ها می تواند یک راه عالی برای تشخیص خطاها باشد. به عنوان مثال نمودار میله ای برای تشخیص مقادیر منحصر به فرد بسیار کارآمد است. همچنین این کار ممکن است به شما برای شناسایی خطاهای دسته بندی و نگارشی نیز کمک کنند. به همین شکل نمودارهای پراکنده می توانند به شناسایی داده های پرت کمک کنند تا بتوانید آن ها را دقیق تر بررسی و یا حذف کنید.
پاکسازی داده ها با استفاده از نرم افزار های تخصصی
بسیاری از شرکت ها از ابزارهای تخصصی برای پاکسازی داده های خود استفاده می کنند. بسیاری از این نرم افزارها با هدف ساده تر کردن پاکسازی داده ها برای کاربرانی که اطلاعات کمی در این باره دارند طراحی شده است. از آنجایی که هزاران برنامه کاربردی اختصاصی وجود دارد ما لیستی برای شما آماده نکرده ایم. خودتان باید درباره هر یک از این ابزارها تحقیق کرده و ابزار مناسب با کار خود را انتخاب کنید. برای آشنایی بیشتر می توانید از نرم افزارهای رایگان و با منبع باز شروع کنید. محبوب ترین این ابزارها عبارت اند از: OpenRefine و Trifacta.
جمع بندی درباره پاکسازی داده ها
می توان گفت پاکسازی داده ها مهمترین بخش فرایند تجزیه و تحلیل داده ها است. با این حال پاکسازی داده تنها مربوط به تحلیل نیست. به هرحال به روزرسانی و منظم کردن هر نوع داده ای مهم است. داده های پاک یک اصل در تحلیل داده و به طور کلی در هر زمینه علمی است.
همچنین در این مقاله درباره پاکسازی داده ها (data cleaning) یاد گرفتیم:
دادهای پاکسازی شده برای تحلیل داده ها بسیار مهم است. استفاده از داده های نامناسب منجر به تصمیم گیری ها و نتیجه گیری های نادرست خواهد شد. فراموش نکنید که Garbage in, garbage out.
پاکسازی داده ها کار وقت گیری است: سرمایه گذاری در زمان بسیار مهم است و تحلیلگران بین 60 تا 80 درصد از زمان خود را صرف پاکسازی داده ها می کنند.
پاکسازی داده ها فرایند پیچیده ای است: این کار به معنای حذف مشاهدات غیر ضروری، رفع خطاهای ساختاری، مقابله با داده های از دست رفته و اعتبارسنجی نتایج است. این کار البته وقت گیر است و به ابزار نیاز دارد.
از جمله ابزارهای انجام این کار می توان به اکسل و زبان های برنامه نویسی مانند Python و ابزارهای تخصصی اشاره کرد که به شما در پاکسازی داده ها کمک می کنند.