داده کاوی پادشاه اطلاعات است؟ واقعا؟!
در سال ۲۰۲۰، کسی انکار نمیکندکه دادهها سلطان هستند. دادههایی که روزگاری برای علوم رایانه و ریاضیات ذاتی به نظر میرسیدند، اکنون تقریباً از تمام داروها گرفته تا تحقیقات بالینی و پزشکی، تمام شاخههای علم را به تمام بخشهای جهان معاصر گسترش داده اند. از قوانین گرفته تا سیاستها؛ از بانکداری گرفته تا بازارهای مشترک و چشم پوشی از برنامههای مدرن گرفته تا برنامههای هوشمند.
دادهها در دنیای امروز فراوان، به راحتی در دسترس و در قالبهای متنوعی قابل دستیابی هستند. با ظهور فناوریهایی مانند اینترنتاشیا (IoT)، دستگاههای هوشمند و برنامههای هوشمند، دادهها اکنون کلید واژه جدیدی در فناوری اینترنت و تجزیه و تحلیل دادهها هستند. طبق تحقیقات مرکز دادههای بزرگ IBM و مرکز تجزیه و تحلیل، ۴۰ زتا بایت Zettabytes داده تا پایان سال ۲۰۲۰ ایجاد میشود. هر روز ۲. ۵ بیت کوینتیلیون ( عدد یک با ۱۸ صفر بتوان ۲ ) ارزیابی شده داده تولید میشود. تقریباً ۶ میلیون کاربر از طریق تلفنهای همراه در سطح جهان آنلاین هستند. ماهانه ۴ میلیارد ساعت فیلم در یوتیوب مشاهده میشود و تقریباً ۴۰۰ میلیون توییت هر روز از طریق توییتر ارسال میشود.
با این حجم انبوه و فراوانی دادهها در سرورها، ایجاد معنا در دادهها گیجکننده و گاهاً مهیب میشود. در این مقطع زمانی که ابزارها و تکنیکهای داده کاوی وارد عمل میشوند که نه تنها به ما تاکتیکی شهری میدهد تا در دادهها غرق شویم و حقایق حیاتی را کشف کنیم بلکه چارچوبی به نام فرآیند داده کاوی به ما میدهد تا با دادهها کار کنیم تا به این ترتیب عملیات عجیب درک دادهها بسیار ساده و آسان شود. هنگامی که این مطلب را میخوانید، قول میدهم که متقاعد شوید باور کنید که دادهها واقعاً پادشاه در سال ۲۰۲۰ هستند.
از تعداد اعداد گرفته تا تحول دیجیتال: فرآیند استخراج داده چیست؟
قبل از ورود به حوزه داده کاوی، ابتدا اجازه دهید به این سوال پاسخ دهیم، داده کاوی چیست؟ به عبارتی قابل فهم، داده کاوی فرایند استخراج اطلاعات از دادهها است. هر چند که اطلاعات و دادهها دو موجودیت متفاوت هستند. داده مجموعهای از اعداد است که ویژگیهای مختلف را توصیف میکند، اما دارای شرایط بودن دادهها، آنها را به اطلاعات تبدیل میکند. به عنوان مثال، ۷۵ یک داده است اما وقتی میگویم ۷۵ کیلوگرم وزن دارم، این یک اطلاعات میشود. از این رو، داده کاوی صرفاً افزودن صلاحیت به دادهها است، به طوری که میتوان از آن معنا و مفهوم اطلاعات را پیدا کرد.
به عبارت دیگر، توضیح دادهها به زبانی که برای ما قابل درک باشد و همچنین به ما امکان تصمیمگیری صحیح را بدهد، همان داده کاوی است. با این توضیحات که در اعتقادات ما پنهان شده است، اکنون فرآیند داده کاوی را بیان میکنیم.
فرایند داده کاوی از روندی به نام CRISP-DM (فرآیند استاندارد ابتکار برای داده کاوی) استفاده میکند که مسائل داده کاوی را به شش بخش مختلف تقسیم میکند:
- تفاهم تجاری
- درک اطلاعات
- آمادهسازی دادهها
- مدلسازی
- ارزیابی
- گسترش دادهها
روش CRISP-DM در فرآیند داده کاوی در هرمدل داده، فرآیند یا تجارت بیطرف نیست و از این رو این احتمالاً راحتترین روش است که به طور گسترده در بسیاری از بخشهای استاندارد آن دنبال میشود. اکنون مراحل فرآیند داده کاوی را یک به یک با جزئیات کامل بیان میکنیم.
- درک تجاری
اولین مرحله از روش CRISP-DM در فرآیند داده کاوی، درک نیازهای تجاری است. هدف از این مرحله این است که بفهمیم چه ویژگیهایی بر تصمیم یا فرآیند خاصی تأثیر میگذارد و اینکه چه نتیجه نهایی پس از اتمام فعالیت داده کاوی توسط کسب و کار قابل قبول است.
به عنوان مثال، در بخش بانکی، اگر نیاز به تجارت، شناسایی مشتریانی باشد که در صورت تحریم وام احتمالاً متصدی آن هستند، هدف از این مرحله تعیین تمام ملاحظاتی است که در بازپرداخت تأثیرگذار است.
این مرحله همچنین شامل توسعه یک طرح پروژه است که انتظار میرود هر مرحله از فرآیند تجزیه و تحلیل دادهها با جزئیات دقیق از جمله ابزارها و تکنیکهای داده کاوی مستند شود.
نقطه عطف نهایی در این مرحله تعریف معیارهای پذیرش است که عبارت است از صحت پیوستگی فرآیند تا درک تجاری. در مثال بالا، برای پیدا کردن متخلفان، معیارهای پذیرش میتواند صحت قطع ۸۵٪ باشد، به عبارت دیگر، اگر مدل بتواند حداقل ۸۵٪ از مشتریانی را که پیش فرض داده اند پیش بینی کند ، مدل پذیرفته میشود اما این کار باید در ابتدای پروژه انجام شود تا پیگیری پیشرفت آسانتر شود.به طور خلاصه ، مرحله درک تجارت شامل موارد زیر است:
- تنظیم هدف برای دستیابی به زبان تجاری
- تعریف فرآیند تجزیه و تحلیل داده ها از جمله ابزارها و تکنیک های داده کاوی
- تنظیم معیارهای پذیرش مدل.
- درک اطلاعات
مرحله دوم روش CRISP-DM فرآیند داده کاوی، درک دادهها است. ما در حال حاضر اطلاعاتی در مورد پارامترهای تأثیرگذار بر یک روند خاص تجاری داریم و هنگامی که در این مرحله هستیم، با جمعآوری دادهها برای این پارامترها شروع میکنیم تا همه این دادهها در ابزار استفاده شده برای فعالیت داده کاوی در مرحله درک کسب و کار تعیین شده باشند. در مثال بانکی همانطور که در بالا بیان شد، دادهها ممکن است از تاریخ بازپرداخت، درآمد ماهانه مشتریان، اطلاعات مشتریان، بیمهها، هرگونه سپردهگذاری در بانک و غیره تشکیل شده باشند. پس از به دست آوردن دادهها، مرحله بعدی کاوش دادهها است. این میتواند شامل یافتن روابط بین ویژگیهای مختلف، نتایج حاصل از اجتماع دادهها مانند جمع، میانگین و غیره، کشف توزیع دادهها و تجزیه و تحلیل آماری ساده مانند یافتن میانگین، متوسط، حالت و انحراف معیار دادهها در مجموعه دادهها است.
پس از کاوش دادهها، مرحله بعدی بلافاصله تعیین کیفیت دادهها است. در علم داده کاوی، کیفیت دادهها به این موضوع مربوط میشود که آیا میتوان به دادهها اعتماد کرد و الگویی پربار را بدست آورد. این را میتوان به یکی از سه روش استنباط کرد، یعنی اینکه داده کامل باشد، به این معنی که آیا دادهها در مورد جمعیت کامل صحبت میکنند یا بخشی از آن، آیا دادهها صحیح هستند یا حاوی دادهی اضافی زیادی هستند و باعث میشود که نتایج داده را نادرست اعلام کند و سرانجام اینکه آیا مقادیر از دست رفته در دادهها وجود ندارد و چه راهکارهایی میتوان برای پوشاندن این شکافها در مجموعه داده اتخاذ کرد. در مثال بالا، اگر دادههای جمعآوری شده فقط یک یا دو ماه داده داشته باشند، گفتن اینکه مشتری احتمالاً پیش فرض دارد یا نه کافی نیست. به منظور پیش بینی صحیح اینکه آیا مشتری احتمالاً پیش فرض دارد، تجزیه و تحلیل روند بازپرداخت حداقل برای یک سال یا همین حدود است.
به طور خلاصه ، مرحله درک داده موارد زیر را در بر می گیرد ،
- جمع آوری داده های مربوطه
- داده های جمع آوری شده را استخراج و کاوش کنید
- تایید و کیفیت داده ها
- آماده سازی داده ها
مرحله سوم روش CRISP-DM فرآیند داده کاوی، تهیه و آمادهسازی داده است. آمادهسازی دادهها آخرین مرحله قبل از درج دادهها به عنوان ورودی به ابزارها و تکنیکهای داده کاوی است. اهمیت کلیدی این مرحله اطمینان از استقلال دادهها نیست، دادهها حاوی مقادیر خالی زیادی نیستند و دادهها مرتبط به نیاز کسب و کار انجام شده در مرحله درک تجارت فرآیند داده کاوی است. به این مرحله انتخاب داده میگویند.
در مثال از برنامه بانکی؛ دادههای مشتری از قبیل آدرس، تاریخ تولد، گروه خون و غیره بسیار بعید است که نقشی در تعیین اینکه آیا مشتری نقشی ایفا میکند داشته باشند، این مجموعه دادهها باید بلافاصله از مجموعه دادهها خارج شود.
پس از انتخاب دادهها، دادهها باید در جایی پاک شوند که در صورت وجود موارد دور از دسترس پاک شوند و از استراتژیهایی برای پر کردن مقادیر دادههای از دست رفته استفاده شود تا مدلسازی بدون هیچ گونه خطایی انجام شود، به این عمل پاکسازی داده میگویند.
پس از پاکسازی دادهها، مرحله بعدی بلافاصله تبدیل دادهها به یک قالب مناسب است. به طور کلی، دادههای خام استخراج شده از پایگاه داده هیچ هدفی ندارند. در ادامه مثال گفته شده، دادههای استخراج شده ممکن است شامل جداول مربوط به دادههای مشتری، جداول حاوی جزئیات مربوط به معاملات انجام شده در طول سالها، جدول حاوی سپردههای ثابت یا حسابهای سپردههای دورهای و غیره باشد. غالباً، همه اینها به شکل جدول جدیدی در میآیند که شامل یک ردیف برای یک مشتری با جزئیات در مشخصات مربوطه است. این کار با ادغام و تجمیع دادهها به دنبال مجموعهای از استراتژیها که به نوع داده، ویژگیهای جدول و نیازهای تجاری وابسته است، انجام میشود.
به طور خلاصه ، مرحله آماده سازی داده ها شامل موارد زیر است:
- جمع آوری داده ها
- پاک کردن داده
- تبدیل داده ها
- مدل سازی
مرحله چهارم روش CRISP-DM فرآیند داده کاوی، مدلسازی است. دادههای آماده شده از آخرین مرحله اکنون به عنوان ورودی به یک الگوریتم داده کاوی خاص ارسال میشود که میتواند یک الگوریتم رگرسیون، یا یک الگوریتم طبقهبندی یا یک شبکه عصبی و غیره باشد. اگرچه ابزارها در مرحله درک کسب و کار انتخاب میشوند، الگوریتم واقعی بسته به نوع دادههای جمعآوری شده و آماده شده در اینجا انتخاب میشود.
سپس مجموعه دادهها به مجموعه دادههای دنباله و آزمون تقسیم میشوند. این امر با تولید مجموعه دادههای تصادفی با استفاده از انواع استراتژیها مانند تصادفیسازی نقاط داده یا استفاده از الگوریتمهای تقسیم آزمونهای آزمایشی پیشرفته انجام میشود. این کار برای ساخت مدل بر روی مجموعه دادههای آزمون انجام و کیفیت مدل در مجموعه دادههای آزمون ارزیابی میشود.
سپس این مدل با تنظیم دقیق پارامترهای مختلف ذاتی الگوریتمهای داده کاوی ساخته میشود. به عنوان مثال، در یک مسئله رگرسیون خطی معمولی، یکی از پارامترهایی که به طور کلی تنظیم میشود، وزن هر نمونه از مجموعه داده است. چنین پارامترهایی تنظیم میشوند تا یک مدل کلی برای دادههای تهیه شده بدست آورند.با تنظیم پارامترها و سایر ویژگی های الگوریتم ، مدل های مختلفی با استفاده از الگوریتم مشابه تولید می شوند که بسته به عملکرد آنها بر روی مجموعه داده های آزمون و اینکه نتایج نزدیک به معیارهای پذیرش که در مرحله درک کسب و کار توافق شده است ، درجه بندی می شوند.
به طور خلاصه ، مرحله مدل سازی موارد زیر را در بر می گیرد ،
- انتخاب الگوریتم داده کاوی
- تقسیم مجموعه داده ها به مجموعه داده های دنباله و آزمون
- ساختمان مدل
- رتبه بندی مدل
- ارزیابی داده
مرحله پنجم روش CRISP-DM فرآیند داده کاوی، ارزیابی است. ارزیابی، تحلیل عمیق عملکرد مدل است که در آخرین مرحله ساخته شده است. از یک طرف که مجموعه دادههای آزمایشی در مورد صحت و عموم مدلها، در مرحله ارزیابی به ما میگوید که آیا مدل به اندازه کافی خوب است تا سناریوهای تجاری معمولی را حل و بررسی کند که آیا مدل از هدف اولیه کسب و کار برخوردار است یا خیر. این مرحله همچنین برای تجزیه و تحلیل این که آیا ویژگیهایی وجود دارد که برای ساخت مدل استفاده میشود اما در آینده نزدیک دیگر در دسترس نیست یا دادهای وجود دارد که ممکن است دارای مشکلات احتمالی باشد به این دلیل که آیا کاربر خاصی تصمیم به اشتراکگذاری دارد، استفاده شده است یا نه؟
در مثال بانکی، اگر کاربر تصمیم بگیرد جزئیات درآمد خانواده را به اشتراک نگذارد، بانک نمیتواند کار زیادی انجام دهد و از این رو ممکن است بر پیش بینی مدل تأثیر بگذارد. برای رفع چنین ناهنجاریهایی باید راهکارهایی اندیشیده شود. به طور خلاصه، مرحله ارزیابی موارد زیر را در بر میگیرد:
- ارزیابی اینکه آیا یک مدل خاص به اندازه کافی برای پاسخگویی به نیازهای خاص تجاری مناسب است
• در صورت وجود ویژگیهایی که ممکن است در آینده در دسترس نباشد، مسیر عمل باید توسعه یابد
- استقرار و گستردگی داده
ششمین و آخرین مرحله از روش CRISP-DM فرآیند داده کاوی، استقرار وگستردگی داده است. این مرحله وظیفه دارد بهترین مدلی را که از مرحله ارزیابی خارج میشود، بدست آورد و مطمئن شود که به سیستم تولیدی منتقل شده است که در آن زمان داده کاوی در زمان واقعی انجام شود. این کار باید با نهایت دقت انجام شود تا فرایندهای موجود در سیستمها خللی ایجاد نشود.
استقرار همچنین شامل برنامهریزی برای فعالیتهای پشتیبانی عملیاتی و همچنین برنامههایی برای حفظ مدل تعبیه شده در سیستم است. علاوه بر این، برای اطمینان از ادامه خدمات، برنامههایی برای نظارت بر سیستم نیز باید تهیه شود. به طور خلاصه، مرحله استقرار شامل موارد زیر است:
- استقرار مدل در سیستم تولید
- تدوین استراتژی برای پشتیبانی عملیاتی، نظارت و نگهداری از مدل
کمک به تحول دیجیتال: آخرین ابزارها و تکنیک های داده کاوی چیست؟
با درک دقیق فرآیند داده کاوی، اکنون زمان آن فرا رسیده است که توجه خود را به جدیدترین ابزارها و تکنیکهای داده کاوی معطوف کنیم. اگر میتوانید مرحله کسب و کار فرآیند داده کاوی را به خاطر بیاورید، باید بتوانید به یاد بیاورید که یکی از جنبههای اصلی این مرحله تعیین اینکه از کدام ابزار داده کاوی استفاده میشود و بعداکدام یک از فرآیندهای داده کاوی هنگام مدلسازی، مناسب است. این نحوه ارتباط ابزارها و تکنیکهای داده کاوی با فرآیند داده کاوی مرتبط است.
برخی از ابزارهای داده کاوی موجود در سال 2020 کدامند؟
- برنامه نویسی R
- برنامه نویسی پایتون
- مدل ساز IBM SPSS