دادهکاوی چیست؟
دادهکاوی که بهعنوان فرآیند کشف دانش نیز شناخته میشود، شاخهای از علم است که برای پیدا کردن ویژگیهای مجموعهدادهها استفاده میشود. مجموعهدادههای بزرگ جمعآوری شده از RDMS یا انبارهای داده یا مجموعهدادههای پیچیده، مانند سریهای زمانی، مکانی و غیره، استخراج میشوند تا همبستگیها و الگوهای جالبی را بین موضوعات نشان دهند. این نتایج برای بهبود فرآیندهای تجاری استفاده شده و در نتیجه منجر به کسب اطلاعات و دید کلی تجاری میشود. اصطلاح «کشف دانش در پایگاه دادهها» (KDD) توسط گرگوری پیاتتسکی- شاپیرو در سال 1989 ابداع شد و اصطلاح «دادهکاوی» در سال 1990 در حوزه پایگاه داده، بهوجود آمد.
یادگیری ماشین چیست؟
یادگیری ماشین تکنیکی است که الگوریتمهای پیچیدهای را برای پردازش دادههای بزرگ ایجاد میکند و نتایج را به کاربران خود ارائه میدهد. یادگیری ماشین از برنامههای پیچیدهای استفاده میکند که میتوانند از طریق تجربه کردن یاد بگیرند و سپس پیشبینی کنند. الگوریتمها، بهخودیخود از طریق ورود منظم دادههای آموزشی، بهبود مییابند. هدف یادگیری ماشین، درک دادهها و ساخت مدلها از دادههایی است که برای انسان قابل درک و استفاده باشد. اصطلاح «یادگیری ماشین» توسط آرتور ساموئل، پیشگام آمریکایی در زمینه بازیهای کامپیوتری و هوش مصنوعی، در سال 1959 ابداع شد؛ او اظهار داشت که یادگیری ماشین به کامپیوترها توانایی یادگیری بدون برنامهریزی را میدهد.
یادگیری ماشین بهصورت زیر طبقهبندی میشود:
- یادگیری بدون نظارت
- یادگیری نظارتی
یادگیری بدون نظارت
یادگیری بدون نظارت به مجموعهدادههای آموزشی برای پیشبینی نتایج متکی نیست، بلکه از تکنیکهای مستقیم مانند خوشهبندی و قانون وابستگی به منظور پیشبینی نتایج استفاده میکند. مجموعهداده آموزشی، به معنی دادههای ورودی است که خروجی آن مشخص باشد.
یادگیری نظارتی
- یادگیری نظارتی مانند فرایند یادگیری بین معلم و دانشآموز است؛ رابطه بین متغیر ورودی و خروجی مشخص است. الگوریتمهای یادگیری ماشین، نتیجه را روی دادههای ورودی پیشبینی میکنند که با نتیجه مورد انتظار مقایسه میشود؛ اگر خطایی وجو داشت، تصحیح میشود و این مرحله تا رسیدن به سطح قابل قبولی از عملکرد، به صورت مکرر انجام خواهد شد.
تفاوت بین یادگیری ماشین و دادهکاوی
هدف
- دادهکاوی برای کشف اینکه چگونه ویژگیهای مختلف یک مجموعهداده از طریق الگوها و تکنیکهای تجسم داده، با یکدیگر مرتبط هستند، استفاده میشود. هدف دادهکاوی، یافتن رابطه بین دو یا چند ویژگی از یک مجموعهداده و استفاده از آن برای پیشبینی نتایج یا اقدامات است.
- یادگیری ماشین، برای پیشبینی نتیجه، مانند تخمین قیمت یا مدت زمان استفاده میشود. بهطور خودکار، مدل در طول زمان با تجربه کردن یاد میگیرد و بلافاصله بازخورد را ارائه میدهد.
طرز کار
- دادهکاوی، تکنیک کاوش عمیق در دادهها برای بهدست آوردن اطلاعات سودمند است. یادگیری ماشین، روشی برای بهبود الگوریتمهای پیچیده برای ساخت ماشینها با تقویت مکرر با مجموعهدادههای آموزشی است.
موارد استفاده
- دادهکاوی بیشتر در زمینههای تحقیقاتی مانند وبکاوی، متنکاوی و تشخیص تقلب استفاده میشود. یادگیری ماشین بیشتر در ارائه توصیه برای محصولات، قیمتها، تخمین زمان مورد نیاز برای تحویل و غیره، کاربرد دارد.
مفهوم
- مفهوم پشت دادهکاوی، استخراج اطلاعات با استفاده از تکنیکها و پیدا کردن روندها و الگوها است. یادگیری ماشین مبتنی بر این مفهوم است که ماشینها از دادههای موجود یاد میگیرند و بهبود مییابند. یادگیری ماشین از روشها و الگوریتمهای دادهکاوی برای ساخت مدلهایی بر اساس منطق پشت دادهها استفاده میکند تا نتیجه را پیشبینی کند. الگوریتمهایی که بهکار گرفته میشوند، بر اساس ریاضیات و زبانهای برنامهنویسی ساخته شدهاند.
روش
- دادهکاوی بهجای آنکه نتایج را بهصورت مستمر تولید کند، تجزیهوتحلیل را در قالب Batch در یک زمان خاص انجام میدهد.
- یادگیری ماشین از تکنیک دادهکاوی برای بهبود الگوریتمهای خود و تغییر رفتار خود برای ورودیهای بعدی، استفاده میکند. بنابراین دادهکاوی بهعنوان یک منبع ورودی برای یادگیری ماشین، عمل میکند. الگوریتمهای یادگیری ماشین بهطور مداوم اجرا میشوند و عملکرد سیستم را بهطور خودکار بهبود میبخشند و در صورت بروز مشکل، کار تجزیهوتحلیل را انجام میدهند. همچنین، زمانیکه دادههای جدیدی وارد میشود، دستگاه بدون نیاز به برنامهریزی مجدد یا دخالت انسان، تغییرات را لحاظ میکند.
ماهیت
- دادهکاوی به مداخله انسان برای بهکارگیری تکنیکها برای استخراج اطلاعات نیاز دارد. یادگیری ماشین با دادهکاوی متفاوت است، زیرا در یادگیری ماشین فرآیند یادگیری به صورت خودکار انجام میشود.
قابلیت یادگیری
- دادهکاوی مستلزم آن است که تجزیهوتحلیل توسط انسان شروع شود، بنابراین یک اقدام دستی است.
- یادگیری ماشین یک گام جلوتر از دادهکاوی است، زیرا از همان تکنیکهای استفاده شده توسط دادهکاوی برای یادگیری خودکار و سازگاری با تغییرات، استفاده میکند. یادگیری ماشین، از دادهکاوی دقیقتر است.
پیادهسازی
- دادهکاوی شامل ساخت مدلهایی است که تکنیکهای دادهکاوی بر روی آنها اعمال میشود. مدلهایی مانند مدل CRISP-DM ساخته شدهاند. فرآیند دادهکاوی، از پایگاه داده، موتور دادهکاوی و ارزیابی الگو برای کشف دانش، استفاده میکند. یادگیری ماشین، با استفاده از الگوریتمهای یادگیری ماشین، در هوش مصنوعی، شبکه عصبی، سیستمهای فازی عصبی و درخت تصمیم و غیره پیادهسازی میشود. یادگیری ماشین از شبکههای عصبی و الگوریتمهای خودکار برای پیشبینی نتایج استفاده میکند.
دقت
- دقت دادهکاوی به نحوه جمعآوری دادهها بستگی دارد. دادهکاوی نتایج دقیقی را تولید میکند که توسط یادگیری ماشین استفاده میشود و در نتیجه باعث میشود یادگیری ماشین نتایج بهتری تولید کند. ثابت شده است که الگوریتمهای یادگیری ماشین دقیقتر از تکنیکهای دادهکاوی هستند.
کاربردها
- در مقایسه با یادگیری ماشین، دادهکاوی میتواند نتایج را در حجم کمتری ایجاد کند. الگوریتم یادگیری ماشین به دادههایی که در قالب استاندارد تقویت شوند، نیاز دارد؛ به همین دلیل بسیاری از الگوریتمهای موجود، محدود هستند. برای تجزیهوتحلیل دادهها با استفاده از یادگیری ماشین، دادهها از منابع متعدد باید به قالب استاندارد تبدیل شوند تا ماشین متوجه شود. همچنین برای نتایج دقیق، به حجم زیادی از دادهها نیاز است.
مثالها
- از دادهکاوی در شناسایی الگوها یا روندهای فروش، توسط شرکتهای تلفن همراه برای حفظ مشتری و غیره، استفاده میشود. یادگیری ماشین در اجرای کمپینهای بازاریابی، تشخیص پزشکی، تشخیص تصویر و موارد دیگر، استفاده میشود.
هوش مصنوعی چیست؟
هوش مصنوعی شاخهای از علم است که به ساخت ماشینهای هوشمند میپردازد؛ دلیل آنکه این ماشینها هوشمند نامیده میشوند، این است که سعی میکنند مانند انسانها توانایی فکر کردن و تصمیمگیری داشته باشند. نمونههایی از ماشینهای هوش مصنوعی عبارتند از: تشخیص گفتار، پردازش تصویر، حل مسئله و غیره. هوش مصنوعی، یادگیری ماشین و دادهکاوی اغلب در دنیای امروز در کنار هم استفاده میشوند. این کلمات بهشدت با یکدیگر مرتبط هستند و گاهیاوقات بهاشتباه بهجای یکدیگر استفاده میشوند. بنابراین، اجازه دهید هر یک از آنها را با جزئیات بررسی و مقایسه کنیم:
هوش مصنوعی و دادهکاوی
هوش مصنوعی، حوزهای برای ایجاد ماشینهای هوشمند است که میتوانند مانند انسان کار کنند و دارای سیستمهای کنترل مستقیم برنامهریزی شده است.
سیستمهای هوش مصنوعی، بهتنهایی با محاسبات، راهکارهایی برای حل مشکلات ارائه میکنند. در دادههای استخراج شده، تکنیک دادهکاوی توسط سیستمهای هوش مصنوعی برای ارائه راهکار استفاده میشود. دادهکاوی بهعنوان پایهای برای هوش مصنوعی عمل میکند. دادهکاوی بخشی از کدهای برنامهنویسی، با اطلاعات و دادههای لازم برای سیستمهای هوش مصنوعی است.
هوش مصنوعی و یادگیری ماشین
بخش بزرگی از هوش مصنوعی، یادگیری ماشین است؛ منظور این است که هوش مصنوعی از الگوریتمهای یادگیری ماشین برای رفتار هوشمند خود استفاده میکند. به کامپیوتر گفته میشود از اقداماتی که در پی آن خطا بهطور مداوم کاهش مییابد و عملکرد مورد انتظار ما را دارد، یاد بگیرد. یادگیری ماشین الگوریتمهایی را بررسی میکند که وظیفه استخراج اطلاعات را بهصورت خودکار انجام میدهند. گفته میشود که یادگیری ماشین از آمار ناشی میشود، اما در واقع اینطور نیست؛ مشابه هوش مصنوعی، یادگیری ماشین نیز دامنه بسیار وسیعی دارد.
دادهکاوی و یادگیری ماشین در مقابل یادگیری عمیق
یادگیری ماشین شامل توانایی ماشین برای یادگیری از مجموعهدادههای آموزشی و پیشبینی نتیجه بهطور خودکار است که زیرمجموعهای از هوش مصنوعی است. یادگیری عمیق زیرمجموعهای از یادگیری ماشین است. یادگیری عمیق به همان روشی که مغز انسان اطلاعات را پردازش میکند، روی ماشین کار میکند. همانطور که مغز انسان میتواند الگوها را با مقایسه آن با الگوهای حفظ شده قبلی شناسایی کند، یادگیری عمیق نیز از این مفهوم استفاده میکند. یادگیری عمیق میتواند بهطور خودکار ویژگیها را از دادههای خام پیدا کند، در حالی که یادگیری ماشین این ویژگیها را بهصورت دستی انتخاب میکند که بیشتر به پردازش نیاز دارد. همچنین از شبکههای عصبی مصنوعی با چندین لایه پنهان، کلان داده و منابع کامپیوتری سطح بالا استفاده میکند. دادهکاوی فرآیندی برای کشف الگوها و قوانین پنهان، از دادههای موجود است. از قوانین نسبتا سادهای مانند قوانین وابستگی و همبستگی برای فرآیند تصمیمگیری و غیره استفاده میکند. یادگیری عمیق برای پردازش مسائل پیچیده مانند تشخیص صدا و غیره استفاده میشود که از شبکههای عصبی مصنوعی با تعداد زیادی لایههای پنهان، برای پردازش استفاده میکند. گاهیاوقات، دادهکاوی نیز از الگوریتمهای یادگیری عمیق برای پردازش دادهها استفاده میکند.
دادهکاوی و یادگیری ماشین در مقابل علم داده
علم داده حوزه وسیعی است که یادگیری ماشین میتواند جزئی از آن محسوب شود. بسیاری از فناوریها مانند SPARK، HADOOP و غیره نیز تحت عنوان علم داده قرار میگیرند. علم داده انشعابی از آمار است که پردازش دادههای عظیم با استفاده از فناوری را امکانپذیر میکند و با تمام مسائل پیچیده دنیای واقعی، مانند تجزیهوتحلیل، درک، استخراج اطلاعات مفید و غیره، سروکار دارد. علم داده با دادههای خام تولید شده توسط انسان سروکار دارد و میتواند تصاویر و فایلهای صوتی را از دادهها، درست مانند آنچه انسانها انجام میدهند، تشخیص دهد. علم داده مستلزم مجموعه مهارتهای تخصصی سطح بالا، دانش قوی از پایگاههای داده و غیره است. همچنین، به منابع محاسباتی و رم زیاد نیاز دارد.
مدلهای علم داده در مقایسه با یادگیری ماشین که تلاش میکند تنها با دادههای موجود کار کند، نقاط عطف مشخصی برای رسیدن به هدف دارند.
مدل علم داده شامل موارد زیر است:
- استخراج، بارگذاری و تبدیل دادهها (ETL)
- توزیع و پردازش دادهها
- نرمافزار مدلهای خودکار برای نتایج.
- تجسم دادهها
- گزارشدهی با ویژگیSlice و Dice برای درک بهتر.
- پشتیبانگیری اطلاعات، بازیابی و امنیت.
- حرکت به سمت تولید
- اجرای مدلهای کسبوکاری با الگوریتمها
تحلیل آماری
آمار، بخش اصلی الگوریتمهای دادهکاوی و یادگیری ماشین را تشکیل میدهد. تحلیل آماری، از دادههای عددی استفاده میکند و شامل معادلات ریاضی زیادی برای استنتاج خروجیها میشود. تحلیل آماری، ابزارها و تکنیکهای مناسبی را برای تجزیهوتحلیل دادههای با حجم بالا، فراهم میکند و حوزه وسیعی از تحلیل دادهها را پوشش میدهد. همچنین تحلیل آماری، کل چرخه عمر دادهها را از برنامهریزی تا تجزیهوتحلیل، ارائه و ایجاد گزارش، پوشش میدهد. دو نوع تحلیل آماری وجود دارد که در زیر ذکر شده است:
- توصیفی
- استنباطی
تحلیل توصیفی، دادهها را خلاصه میکند و تحلیل استنباطی از دادههای خلاصه شده برای ترسیم نتایج استفاده میکند. از آمار در زمینههای مختلف استفاده میشود؛ یعنی در جغرافیا برای تعیین سرانه جمعیت، در اقتصاد برای مطالعه عرضه و تقاضا، در بانک برای برآورد سپردههای یکروزه و غیره.
مثالهایی از یادگیری ماشین
- پشتیبانی از چت آنلاین توسط وب سایتها: رباتهایی که توسط چندین وبسایت برای ارائه خدمات فوری به مشتریان استفاده میشوند، توسط هوش مصنوعی پشتیبانی میشوند.
- پیامهای ایمیل: سرویسهای ایمیل بهطور خودکار تشخیص میدهند که آیا محتوا اسپم است یا خیر. این تکنیک همچنین از هوش مصنوعی پشتیبانی میکند که به پیوستها و محتوا نگاه میکند تا تشخیص دهد که آیا برای کاربر غیرقابلاعتماد یا زیانبار است یا خیر.
- کارزارهای بازاریابی: یادگیری ماشین پیشنهاداتی را در مورد یک محصول جدید یا محصولات مشابه به مشتریان خود ارائه میدهد. بر اساس انتخابهای مشتری، بهطور خودکار معاملات را بلافاصله زمانی که مشتری هنوز در دسترس است تنظیم میکند تا او را برای خرید راضی کند. بهعنوان مثال، lightning deals آمازون. (تبلیغات پولی که از طریق آن فروشندگان میتوانند تخفیفات بزرگی را برای اقلام خاص ارائه دهند.)
نتیجهگیری
دادهها، مهمترین فاکتور یادگیری ماشین، دادهکاوی، علم داده و یادگیری عمیق هستند. تحلیل دادهها و شواهد، در دنیای امروز بسیار مهم است؛ از این رو، سرمایهگذاری در زمان، تلاش و همچنین هزینهها در تکنیکهای تحلیل، یک تصمیم حیاتی برای کسبوکارها است. از آنجایی که دادهها با سرعت بسیار بالایی در حال رشد هستند، این روشها باید به اندازهای سریع باشند که بتوانند مجموعهدادههای جدید را گرفته و نتایج مفیدی را پیشبینی کنند. یادگیری ماشین میتواند به ما کمک کند تا بهسرعت دادهها را پردازش کنیم و نتایج سریعتری را در قالب مدلها بهصورت خودکار ارائه کنیم. تکنیکهای دادهکاوی الگوها و روندهایی را از دادههای گذشته برای پیشبینی نتایج بعدی، تولید میکنند.
این نتایج بهصورت گرافها، چارتها و موارد دیگر هستند. تحلیل آماری، بخشی جداییناپذیر از تجزیهوتحلیل دادهها را تشکیل میدهد و در آینده نزدیک رشد بیشتری خواهد داشت. این فناوریها در آینده با بهبود فرآیندهای کسبوکار بهشدت رشد خواهند کرد. اینها به نوبه خود به کسبوکارها کمک میکنند تا فرآیند دستی را خودکار کنند، فروش و سود را افزایش دهند و در نتیجه به حفظ مشتریهای خود کمک کنند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟