پرش به محتوا

تا 60% - 400 هزارتومان تخفیف

جشنواره تخفیفات تابستانی

بزرگترین تخفیف سال!

روزها
ساعت‌
دقیقه
درسواره
جستجو
  • علم و تکنولوژی
  • زبان و علوم انسانی
  • سلامت
  • هنر
  • گردشگری
  • سرگرمی
منو
  • علم و تکنولوژی
  • زبان و علوم انسانی
  • سلامت
  • هنر
  • گردشگری
  • سرگرمی
حساب کاربری

داده کاوی در سال 2021 چیست؟

مریم محمدیان
مریم محمدیان
  • خرداد ۱۳, ۱۴۰۰

تعداد بازدید ۲۰۶

داده کاوی
داده کاوی پادشاه اطلاعات است؟ واقعا؟!

در سال ۲۰۲۰، کسی انکار نمی‌کندکه داده‌ها سلطان هستند. داده‌هایی که روزگاری برای علوم رایانه و ریاضیات ذاتی به نظر می‌رسیدند، اکنون تقریباً از تمام دارو‌ها گرفته تا تحقیقات بالینی و پزشکی، تمام شاخه‌های علم را به تمام بخش‌های جهان معاصر گسترش داده اند. از قوانین گرفته تا سیاست‌ها؛ از بانکداری گرفته تا بازار‌های مشترک و چشم پوشی از برنامه‌های مدرن گرفته تا برنامه‌های هوشمند.

داده‌ها در دنیای امروز فراوان، به راحتی در دسترس و در قالب‌های متنوعی قابل دستیابی هستند. با ظهور فناوری‌هایی مانند اینترنت‌اشیا (IoT)، دستگاه‌های هوشمند و برنامه‌های هوشمند، داده‌ها اکنون کلید واژه جدیدی در فناوری اینترنت و تجزیه و تحلیل داده‌ها هستند. طبق تحقیقات مرکز داده‌های بزرگ IBM و مرکز تجزیه و تحلیل، ۴۰ زتا بایت Zettabytes داده تا پایان سال ۲۰۲۰ ایجاد می‌شود. هر روز ۲. ۵ بیت کوینتیلیون ( عدد یک با ۱۸ صفر بتوان ۲ ) ارزیابی شده داده تولید می‌شود. تقریباً ۶ میلیون کاربر از طریق تلفن‌های همراه در سطح جهان آنلاین هستند. ماهانه ۴ میلیارد ساعت فیلم در یوتیوب مشاهده می‌شود و تقریباً ۴۰۰ میلیون توییت هر روز از طریق توییتر ارسال می‌شود.

با این حجم انبوه و فراوانی داده‌ها در سرور‌ها، ایجاد معنا در داده‌ها گیج‌کننده و گاهاً مهیب می‌شود. در این مقطع زمانی که ابزار‌ها و تکنیک‌های داده کاوی وارد عمل می‌شوند که نه تنها به ما تاکتیکی شهری می‌دهد تا در داده‌ها غرق شویم و حقایق حیاتی را کشف کنیم بلکه چارچوبی به نام فرآیند داده کاوی به ما می‌دهد تا با داده‌ها کار کنیم تا به این ترتیب عملیات عجیب درک داده‌ها بسیار ساده و آسان شود. هنگامی که این مطلب را می‌خوانید، قول می‌دهم که متقاعد شوید باور کنید که داده‌ها واقعاً پادشاه در سال ۲۰۲۰ هستند.

از تعداد اعداد گرفته تا تحول دیجیتال: فرآیند استخراج داده چیست؟

قبل از ورود به حوزه داده کاوی، ابتدا اجازه دهید به این سوال پاسخ دهیم، داده کاوی چیست؟ به عبارتی قابل فهم، داده کاوی فرایند استخراج اطلاعات از داده‌ها است. هر چند که اطلاعات و داده‌ها دو موجودیت متفاوت هستند. داده مجموعه‌ای از اعداد است که ویژگی‌های مختلف را توصیف می‌کند، اما دارای شرایط بودن داده‌ها، آن‌ها را به اطلاعات تبدیل می‌کند. به عنوان مثال، ۷۵ یک داده است اما وقتی می‌گویم ۷۵ کیلوگرم وزن دارم، این یک اطلاعات می‌شود. از این رو، داده کاوی صرفاً افزودن صلاحیت به داده‌ها است، به طوری که می‌توان از آن معنا و مفهوم اطلاعات را پیدا کرد.

به عبارت دیگر، توضیح داده‌ها به زبانی که برای ما قابل درک باشد و همچنین به ما امکان تصمیم‌گیری صحیح را بدهد، همان داده کاوی است. با این توضیحات که در اعتقادات ما پنهان شده است، اکنون فرآیند داده کاوی را بیان می‌کنیم.

فرایند داده کاوی از روندی به نام CRISP-DM (فرآیند استاندارد ابتکار برای داده کاوی) استفاده می‌کند که مسائل داده کاوی را به شش بخش مختلف تقسیم می‌کند:

  • تفاهم تجاری
  • درک اطلاعات
  • آماده‌سازی داده‌ها
  • مدل‌سازی
  • ارزیابی
  • گسترش داده‌ها

روش CRISP-DM در فرآیند داده کاوی در هرمدل داده، فرآیند یا تجارت بی‌طرف نیست و از این رو این احتمالاً راحت‌ترین روش است که به طور گسترده در بسیاری از بخش‌های استاندارد آن دنبال می‌شود. اکنون مراحل فرآیند داده کاوی را یک به یک با جزئیات کامل بیان می‌کنیم.

  1. درک تجاری

اولین مرحله از روش CRISP-DM در فرآیند داده کاوی، درک نیاز‌های تجاری است. هدف از این مرحله این است که بفهمیم چه ویژگی‌هایی بر تصمیم یا فرآیند خاصی تأثیر می‌گذارد و اینکه چه نتیجه نهایی پس از اتمام فعالیت داده کاوی توسط کسب و کار قابل قبول است.

به عنوان مثال، در بخش بانکی، اگر نیاز به تجارت، شناسایی مشتریانی باشد که در صورت تحریم وام احتمالاً متصدی آن هستند، هدف از این مرحله تعیین تمام ملاحظاتی است که در بازپرداخت تأثیرگذار است.
این مرحله همچنین شامل توسعه یک طرح پروژه است که انتظار می‌رود هر مرحله از فرآیند تجزیه و تحلیل داده‌ها با جزئیات دقیق از جمله ابزار‌ها و تکنیک‌های داده کاوی مستند شود.

نقطه عطف نهایی در این مرحله تعریف معیار‌های پذیرش است که عبارت است از صحت پیوستگی فرآیند تا درک تجاری. در مثال بالا، برای پیدا کردن متخلفان، معیار‌های پذیرش می‌تواند صحت قطع ۸۵٪ باشد، به عبارت دیگر، اگر مدل بتواند حداقل ۸۵٪ از مشتریانی را که پیش فرض داده اند پیش بینی کند ، مدل پذیرفته می‌شود اما این کار باید در ابتدای پروژه انجام شود تا پیگیری پیشرفت آسان‌تر شود.به طور خلاصه ، مرحله درک تجارت شامل موارد زیر است:

  • تنظیم هدف برای دستیابی به زبان تجاری
  • تعریف فرآیند تجزیه و تحلیل داده ها از جمله ابزارها و تکنیک های داده کاوی
  • تنظیم معیارهای پذیرش مدل.
  1. درک اطلاعات

مرحله دوم روش CRISP-DM فرآیند داده کاوی، درک داده‌ها است. ما در حال حاضر اطلاعاتی در مورد پارامتر‌های تأثیرگذار بر یک روند خاص تجاری داریم و هنگامی که در این مرحله هستیم، با جمع‌آوری داده‌ها برای این پارامتر‌ها شروع می‌کنیم تا همه این داده‌ها در ابزار استفاده شده برای فعالیت داده کاوی در مرحله درک کسب و کار تعیین شده باشند. در مثال بانکی همانطور که در بالا بیان شد، داده‌ها ممکن است از تاریخ بازپرداخت، درآمد ماهانه مشتریان، اطلاعات مشتریان، بیمه‌ها، هرگونه سپرده‌گذاری در بانک و غیره تشکیل شده باشند. پس از به دست آوردن داده‌ها، مرحله بعدی کاوش داده‌ها است. این می‌تواند شامل یافتن روابط بین ویژگی‌های مختلف، نتایج حاصل از اجتماع داده‌ها مانند جمع، میانگین و غیره، کشف توزیع داده‌ها و تجزیه و تحلیل آماری ساده مانند یافتن میانگین، متوسط، حالت و انحراف معیار داده‌ها در مجموعه داده‌ها است.

پس از کاوش داده‌ها، مرحله بعدی بلافاصله تعیین کیفیت داده‌ها است. در علم داده کاوی، کیفیت داده‌ها به این موضوع مربوط می‌شود که آیا می‌توان به داده‌ها اعتماد کرد و الگویی پربار را بدست آورد. این را می‌توان به یکی از سه روش استنباط کرد، یعنی اینکه داده کامل باشد، به این معنی که آیا داده‌ها در مورد جمعیت کامل صحبت می‌کنند یا بخشی از آن، آیا داده‌ها صحیح هستند یا حاوی داده‌ی اضافی زیادی هستند و باعث می‌شود که نتایج داده را نادرست اعلام کند و سرانجام اینکه آیا مقادیر از دست رفته در داده‌ها وجود ندارد و چه راهکار‌هایی می‌توان برای پوشاندن این شکاف‌ها در مجموعه داده اتخاذ کرد. در مثال بالا، اگر داده‌های جمع‌آوری شده فقط یک یا دو ماه داده داشته باشند، گفتن اینکه مشتری احتمالاً پیش فرض دارد یا نه کافی نیست. به منظور پیش بینی صحیح اینکه آیا مشتری احتمالاً پیش فرض دارد، تجزیه و تحلیل روند بازپرداخت حداقل برای یک سال یا همین حدود است.

به طور خلاصه ، مرحله درک داده موارد زیر را در بر می گیرد ،

  • جمع آوری داده های مربوطه
  • داده های جمع آوری شده را استخراج و کاوش کنید
  • تایید و کیفیت داده ها
  1. آماده سازی داده ها

مرحله سوم روش CRISP-DM فرآیند داده کاوی، تهیه و آماده‌سازی داده است. آماده‌سازی داده‌ها آخرین مرحله قبل از درج داده‌ها به عنوان ورودی به ابزار‌ها و تکنیک‌های داده کاوی است. اهمیت کلیدی این مرحله اطمینان از استقلال داده‌ها نیست، داده‌ها حاوی مقادیر خالی زیادی نیستند و داده‌ها مرتبط به نیاز کسب و کار انجام شده در مرحله درک تجارت فرآیند داده کاوی است. به این مرحله انتخاب داده می‌گویند.
در مثال از برنامه بانکی؛ داده‌های مشتری از قبیل آدرس، تاریخ تولد، گروه خون و غیره بسیار بعید است که نقشی در تعیین اینکه آیا مشتری نقشی ایفا می‌کند داشته باشند، این مجموعه داده‌ها باید بلافاصله از مجموعه داده‌ها خارج شود.

پس از انتخاب داده‌ها، داده‌ها باید در جایی پاک شوند که در صورت وجود موارد دور از دسترس پاک شوند و از استراتژی‌هایی برای پر کردن مقادیر داده‌های از دست رفته استفاده شود تا مدل‌سازی بدون هیچ گونه خطایی انجام شود، به این عمل پاکسازی داده می‌گویند.

پس از پاکسازی داده‌ها، مرحله بعدی بلافاصله تبدیل داده‌ها به یک قالب مناسب است. به طور کلی، داده‌های خام استخراج شده از پایگاه داده هیچ هدفی ندارند. در ادامه مثال گفته شده، داده‌های استخراج شده ممکن است شامل جداول مربوط به داده‌های مشتری، جداول حاوی جزئیات مربوط به معاملات انجام شده در طول سال‌ها، جدول حاوی سپرده‌های ثابت یا حساب‌های سپرده‌های دوره‌ای و غیره باشد. غالباً، همه این‌ها به شکل جدول جدیدی در می‌آیند که شامل یک ردیف برای یک مشتری با جزئیات در مشخصات مربوطه است. این کار با ادغام و تجمیع داده‌ها به دنبال مجموعه‌ای از استراتژی‌ها که به نوع داده، ویژگی‌های جدول و نیاز‌های تجاری وابسته است، انجام می‌شود.

به طور خلاصه ، مرحله آماده سازی داده ها شامل موارد زیر است:

  • جمع آوری داده ها
  • پاک کردن داده
  • تبدیل داده ها
  1. مدل سازی

مرحله چهارم روش CRISP-DM فرآیند داده کاوی، مدل‌سازی است. داده‌های آماده شده از آخرین مرحله اکنون به عنوان ورودی به یک الگوریتم داده کاوی خاص ارسال می‌شود که می‌تواند یک الگوریتم رگرسیون، یا یک الگوریتم طبقه‌بندی یا یک شبکه عصبی و غیره باشد. اگرچه ابزار‌ها در مرحله درک کسب و کار انتخاب می‌شوند، الگوریتم واقعی بسته به نوع داده‌های جمع‌آوری شده و آماده شده در اینجا انتخاب می‌شود.
سپس مجموعه داده‌ها به مجموعه داده‌های دنباله و آزمون تقسیم می‌شوند. این امر با تولید مجموعه داده‌های تصادفی با استفاده از انواع استراتژی‌ها مانند تصادفی‌سازی نقاط داده یا استفاده از الگوریتم‌های تقسیم آزمون‌های آزمایشی پیشرفته انجام می‌شود. این کار برای ساخت مدل بر روی مجموعه داده‌های آزمون انجام و کیفیت مدل در مجموعه داده‌های آزمون ارزیابی می‌شود.

سپس این مدل با تنظیم دقیق پارامتر‌های مختلف ذاتی الگوریتم‌های داده کاوی ساخته می‌شود. به عنوان مثال، در یک مسئله رگرسیون خطی معمولی، یکی از پارامتر‌هایی که به طور کلی تنظیم می‌شود، وزن هر نمونه از مجموعه داده است. چنین پارامتر‌هایی تنظیم می‌شوند تا یک مدل کلی برای داده‌های تهیه شده بدست آورند.با تنظیم پارامترها و سایر ویژگی های الگوریتم ، مدل های مختلفی با استفاده از الگوریتم مشابه تولید می شوند که بسته به عملکرد آنها بر روی مجموعه داده های آزمون و اینکه نتایج نزدیک به معیارهای پذیرش که در مرحله درک کسب و کار توافق شده است ، درجه بندی می شوند.

به طور خلاصه ، مرحله مدل سازی موارد زیر را در بر می گیرد ،

  • انتخاب الگوریتم داده کاوی
  • تقسیم مجموعه داده ها به مجموعه داده های دنباله و آزمون
  • ساختمان مدل
  • رتبه بندی مدل
  1. ارزیابی داده

مرحله پنجم روش CRISP-DM فرآیند داده کاوی، ارزیابی است. ارزیابی، تحلیل عمیق عملکرد مدل است که در آخرین مرحله ساخته شده است. از یک طرف که مجموعه داده‌های آزمایشی در مورد صحت و عموم مدل‌ها، در مرحله ارزیابی به ما می‌گوید که آیا مدل به اندازه کافی خوب است تا سناریو‌های تجاری معمولی را حل و بررسی کند که آیا مدل از هدف اولیه کسب و کار برخوردار است یا خیر. این مرحله همچنین برای تجزیه و تحلیل این که آیا ویژگی‌هایی وجود دارد که برای ساخت مدل استفاده می‌شود اما در آینده نزدیک دیگر در دسترس نیست یا داده‌ای وجود دارد که ممکن است دارای مشکلات احتمالی باشد به این دلیل که آیا کاربر خاصی تصمیم به اشتراک‌گذاری دارد، استفاده شده است یا نه؟

در مثال بانکی، اگر کاربر تصمیم بگیرد جزئیات درآمد خانواده را به اشتراک نگذارد، بانک نمی‌تواند کار زیادی انجام دهد و از این رو ممکن است بر پیش بینی مدل تأثیر بگذارد. برای رفع چنین ناهنجاری‌هایی باید راهکار‌هایی اندیشیده شود. به طور خلاصه، مرحله ارزیابی موارد زیر را در بر می‌گیرد:

  • ارزیابی اینکه آیا یک مدل خاص به اندازه کافی برای پاسخگویی به نیاز‌های خاص تجاری مناسب است
    • در صورت وجود ویژگی‌هایی که ممکن است در آینده در دسترس نباشد، مسیر عمل باید توسعه یابد
  1. استقرار و گستردگی داده

ششمین و آخرین مرحله از روش CRISP-DM فرآیند داده کاوی، استقرار وگستردگی داده است. این مرحله وظیفه دارد بهترین مدلی را که از مرحله ارزیابی خارج می‌شود، بدست آورد و مطمئن شود که به سیستم تولیدی منتقل شده است که در آن زمان داده کاوی در زمان واقعی انجام شود. این کار باید با نهایت دقت انجام شود تا فرایند‌های موجود در سیستم‌ها خللی ایجاد نشود.

استقرار همچنین شامل برنامه‌ریزی برای فعالیت‌های پشتیبانی عملیاتی و همچنین برنامه‌هایی برای حفظ مدل تعبیه شده در سیستم است. علاوه بر این، برای اطمینان از ادامه خدمات، برنامه‌هایی برای نظارت بر سیستم نیز باید تهیه شود. به طور خلاصه، مرحله استقرار شامل موارد زیر است:

  • استقرار مدل در سیستم تولید
  • تدوین استراتژی برای پشتیبانی عملیاتی، نظارت و نگهداری از مدل
کمک به تحول دیجیتال: آخرین ابزارها و تکنیک های داده کاوی چیست؟

با درک دقیق فرآیند داده کاوی، اکنون زمان آن فرا رسیده است که توجه خود را به جدیدترین ابزار‌ها و تکنیک‌های داده کاوی معطوف کنیم. اگر می‌توانید مرحله کسب و کار فرآیند داده کاوی را به خاطر بیاورید، باید بتوانید به یاد بیاورید که یکی از جنبه‌های اصلی این مرحله تعیین اینکه از کدام ابزار داده کاوی استفاده می‌شود و بعداکدام یک از فرآیند‌های داده کاوی هنگام مدل‌سازی، مناسب است. این نحوه ارتباط ابزار‌ها و تکنیک‌های داده کاوی با فرآیند داده کاوی مرتبط است.

برخی از ابزارهای داده کاوی موجود در سال 2020 کدامند؟

  • برنامه نویسی R
  • برنامه نویسی پایتون
  • مدل ساز IBM SPSS
منبع:

درسواره

اگر مطالعه این مطلب برای شما مفید بود، مطالعه مطالب زیر نیز به شما پیشنهاد می‌شود:
Loading...

آموزش برنامه نویسی سی شارپ #C

آموزش نرم افزار SAS برای تجزیه تحلیل آماری

آموزش نرم افزار Xpert Highscore Plus برای آنالیز داده های XRD

آموزش SPSS به صورت جامع برای تحلیل داده های آماری

برچسب ها: دیتا ماینینگ
اشتراک
Notify of
امتیاز
0 دیدگاه ها
Inline Feedbacks
View all comments

آموزش های پیشنهادی در درسواره

آموزش مقدماتی برنامه نویسی سی شارپ #C

آموزش برنامه نویسی سی شارپ #C

آموزش نرم افزار Statistical Analysis System) SAS)

آموزش نرم افزار SAS برای تجزیه تحلیل آماری

آموزش نرم افزار Xpert Highscore Plus برای آنالیز داده های XRD

آموزش نرم افزار Xpert Highscore Plus برای آنالیز داده های XRD

آموزش spss

آموزش SPSS به صورت جامع برای تحلیل داده های آماری

مطالب مرتبط

Loading...
25 فناوری برتر

25 فناوری برتر در سال های آتی

  • اردیبهشت ۹, ۱۴۰۰
  • ۱۴:۵۴
10 فناوری برتر 2021

10 فناوری برتر برای سال 2021

  • بهمن ۱۸, ۱۳۹۹
  • ۱۶:۳۲
تقویت حافظه

تقویت حافظه و روش هایی برای یادگیری سریع‌تر

  • بهمن ۳, ۱۳۹۹
  • ۱۵:۱۲
5 نرم افزار برتر آمار

5 نرم افزار برتر آماری در سال 2021

  • دی ۱۵, ۱۳۹۹
  • ۱۶:۰۰

عضویت در خبرنامه درسواره

با عضو شدن در خبرنامه درسواره از جدیدترین اخبار درسواره شامل زمان انتشار جدیدترین آموزش ها و تخفیفات باخبر شوید.

در کانال تلگرام درسواره عضو شوید!

join-telegram

صفحه اینستاگرام درسواره را دنبال کنید!

ویدیوهای آموزشی رایگان در یوتیوب درسواره!

آموزش های ویدیویی مرتبط در درسواره
Loading...
آموزش مقدماتی برنامه نویسی سی شارپ #C

آموزش برنامه نویسی سی شارپ #C

آموزش نرم افزار Statistical Analysis System) SAS)

آموزش نرم افزار SAS برای تجزیه تحلیل آماری

آموزش نرم افزار Xpert Highscore Plus برای آنالیز داده های XRD

آموزش نرم افزار Xpert Highscore Plus برای آنالیز داده های XRD

آموزش spss

آموزش SPSS به صورت جامع برای تحلیل داده های آماری

آموزش متلب (MATLAB)

آموزش متلب (MATLAB) از پایه با مثال‌های عینی و پرکاربرد

آموزش برنامه نویسی C

آموزش برنامه نویسی C از پایه و به زبان ساده

مطالب مرتبط
Loading...
25 فناوری برتر

25 فناوری برتر در سال های آتی

درسواره

تحریره درسواره

  • اردیبهشت ۹, ۱۴۰۰
10 فناوری برتر 2021

10 فناوری برتر برای سال 2021

مریم محمدیان

مریم محمدیان

  • بهمن ۱۸, ۱۳۹۹
تقویت حافظه

تقویت حافظه و روش هایی برای یادگیری سریع‌تر

مقدم

کیمیا جباری مقدم

  • بهمن ۳, ۱۳۹۹
Loading...
25 فناوری برتر

25 فناوری برتر در سال های آتی

10 فناوری برتر 2021

10 فناوری برتر برای سال 2021

تقویت حافظه

تقویت حافظه و روش هایی برای یادگیری سریع‌تر

فروشگاه درسواره

درباره درسواره

درباره مجله درسواره

فرصت های شغلی درسواره

استفاده از مطالب مجله درسواره با اهداف غیرتجاری با ذکر نام مجله درسواره و لینک به منبع بلامانع است. کلیه حقوق این سایت متعلق به مجموعه درسواره است.

Facebook Twitter Youtube Linkedin
wpDiscuz