داده‌کاوی پیش‌گویانه و توصیفی چیست؟
تقریبا تمامی صنایع، علوم و رشته‌های مهندسی برای انجام بهتر فعالیت‌های خود مجبور هستند ماهیت مجموعه داده‌های بزرگ، پیچیده و غنی از اطلاعات را درک کنند. در دنیای تجارت، اطلاعات کسب‌وکار و مشتریان به عنوان دارایی‌های راهبردی (استرانژیک) شناخته می‌شوند. توانایی استخراج دانش مفید نهان در این داده‌ها و عمل بر مبنای این دانش در دنیای رقابتی امروز به‌طور فزاینده‌ای حائز اهمیت شده است. فرآیند به‌کارگیری روندها و الگوهای مبتنی بر کامپیوتر که شامل تکنیک‌ها و ابزارهای نوینی می‌شود که هدفشان کشف دانش از داده‌ها است را داده‌‌کاوی می‌نامند. به بیان ساده‌تر، فرآیند به‌کارگیری یک روش مبتنی بر کامپیوتر که شامل تکنیک‌های نوین استخراج دانش از دل داده‌های خام است را داده‌کاوی می‌گویند.

داده‌کاوی یک فرآیند تکرارشونده است که شامل کشف دانش از طریق روش‌های خودکار یا دستی است که در یک چرخه انجام می‌شود تا در نهایت اطلاعات قابل استناد استخراج شوند. داده‌کاوی به ویژه در سناریوهای تجزیه و تحلیل اکتشافی که هیچ مفهوم از پیش تعیین شده‌ای در مورد آن‌چه که قرار است در قالب نتایج به دست آیند کاربرد دارد. به‌طور مثال، با شروع یک بحران فراگیر ممکن است صنایعی نظیر نفت و گاز به چه فعل و انفعلاتی روبرو شوند. داده‌کاوی جست‌جو برای کشف اطلاعات جدید، ارزشمند و مستتر در حجم عظیمی از داده‌ها است که به تلاش و همکاری (Cooperative) مشترک انسان و کامپیوتر نیاز دارد. به همین دلیل، بهترین نتایج زمانی به دست می‌آیند که متخصصان بتوانند مشکلات و اهداف را به شکل دقیقی توصیف کنند و کامپیوترها بتوانند بر مبنای الگوهای کنکاش‌گر به جست‌وجوی اطلاعات بپردازند. کارشناسان علم آمار و فناوری دو کاربرد یا به عبارت دقیق‌تر دو ترند اصلی برای داده‌کاوی تعریف کرده‌اند که شامل داده‌کاوی پیش‌بینانه (prediction datamining) و داده‌کاوی توصیفی (description data mining) است.

داده‌کاوی پیش‌بینانه

داده‌کاوی پیش‌بینانه/ پیش‌گویانه (predictive)، رویکرد پیش‌بینانه به معنای به‌کارگیری برخی متغیرها یا فیلدهای درون مجموعه داده‌ها با هدف پیش‌بینی تحولات ناشناخته زمان حال یا آینده یا شناسایی متغیرهایی است که ارزش اطلاعاتی دارند. در این‌جا واژه پیش‌گویانه (Prediction) به خروجی الگوریتمی اشاره دارد که پس از آموزش بر مبنای مجموعه‌های قبلی، بر مبنای دریافت مجموعه داده‌های جدید و به‌کارگیری آن‌ها به پیش‌بینی احتمالات خاص می‌پردازد. به‌طور مثال، آیا ارزش سهام یک شرکت ممکن است در آینده سقوط کند یا بالاتر برود. بر این اساس، داده‌کاوی پیش‌گویانه به ساخت یک مدل سیستمی اشاره دارد که برخواسته از مجموعه داده‌هایی است که دریافت کرده است. در داده‌کاوی پیش‌گویانه هدف ساخت مدلی است که به عنوان یک کد اجرایی قابل استناد باشد بتوان در فرآیندهایی نظیر طبقه‌بندی، پیش‌بینی، تخمین و وظایف این چنینی از آن استفاده کرد. 

داده‌کاوی توصیفی

فرآیند داده‌کاوی توصیفی (Description)  روی پیدا کردن الگوهای توصیفی داده‌ها که می‌توانند توسط انسان‌ها تفسیر شوند متمرکز است. در این‌جا هدف ساخت، مدلی جدید و مبتنی بر اطلاعات غیر بدیهی (nontrivial) بر مبنای مجموعه داده‌های در دسترس است. در داده‌کاوی توصیفی هدف این است که با استفاده از الگوها و روابط حاکم بر بزرگ داده‌ها شناخت دقیقی در ارتباط با سیستمی که تحلیل شده به دست آید. 

مدل‌های پیش‌گویانه و توصیفی در کاربردهای خاص داده‌کاوی به شکل قابل توجهی متفاوت از یکدیگر هستند. در هر دو حالت برای آن‌که بتوان از مزایای شاخص رویکردهای توصیفی و پیش‌بینانه بهره برد باید از تکنیک‌های داده‌کاوی که در مقاله‌های آینده به آن‌ها اشاره خواهد شد استفاده کرد.

مراحل تشکیل‌دهنده داده‌کاوی

برای آن‌که بتوان یک مدل پیش‌گویانه یا توصیفی کارآمد را پیاده‌سازی کرد، لازم است تا فرآیندهایی انجام شوند. در حالت کلی، برای انجام یک داده‌کاوی اولیه باید مراحل زیر بر مبنای مدل انتخاب شده به دقت اجرا شوند.

(طبقه‌بندی) Classification: یکی از فرآیندهای مهم داده‌کاوی است که عناصر موجود در یک مجموعه را به دسته‌ها یا کلاس‌های هدف اختصاص می‌دهد. هدف از طبقه‌بندی پیش‌بینی دقیق کلاس هدفی است که داده‌ها باید عضو آن شوند. به‌طور مثال، یک مدل طبقه‌بندی می‌تواند برای شناسایی و برچسب‌گذاری متقاضیان وام بر مبنای ریسک اعتباری کم، متوسط یا زیاد انجام شود. به عبارت دقیق‌تر، چه افرادی در موعد پرداخت اقساط ممکن است در زمان تعیین شده اقساط را پرداخت کنند، برخی با چند روز تاخیر و برخی قادر به پرداخت اقساط نباشند.

(رگرسیون) Regression: رگرسیون یکی دیگر از عملکردهای مهم داده‌کاوی است که عددی را پیش‌بینی می‌کند. به‌طور مثال، یک مدل رگرسیون می‌تواند برای پیش‌بینی ارزش یک خانه بر مبنای موقعیت مکانی، تعداد اتاق‌ها، مساحت زمنی و سایر عوامل استفاده شود. یک فرآیند رگرسیون با مجموعه‌ای از داده‌ها آغاز می‌شود در آن مقادیر هدف شناخته شده هستند. در رگرسیون یک عنصر داده‌ای به یک متغیر پیش‌گویانه ارزش واقعی (real-value) نگاشت می‌شود.

(خوشه‌بندی) Clustering: یکی از فرآیندهای رایج در داده‌کاوی توصیفی است که در آن کارشناسی به دنبال شناسایی مجموعه‌ای محدود از دسته‌ها یا خوشه‌ها برای توصیف داده‌ها است.

خلاصه‌سازی (Summarization): یک وظیفه توصیفی اضافی است که شامل روش‌هایی برای شناسایی یک توصیف مختصر برای مجموعه‌ای از داده‌ها است.

مدل‌سازی وابستگی (Dependency Modeling): یافتن یک مدل محلی که وابستگی‌های قابل توجهی را میان متغیرها یا میان مقادیر یک ویژگی در یک مجموعه داده یا در بخشی از یک مجموعه داده توصیف می‌کند.

شناسایی تغییر و انحراف (Change and deviation detection): به کشف و شناسایی مهم‌ترین تغییرات اعمال شده در مجموعه داده‌ها اشاره دارد.

طبقه‌بندی‌ها و تعاریف مقدماتی که ارائه کردیم تنها برای آشنایی خوانندگان با پیچیدگی مفاهیم مرتبط با داده‌کاوی و قابلیت‌هایی که داده‌کاوی ارائه می‌کند ذکر شده است. در آموزش‌های آتی با استفاده از نمودارهای گرافیکی سعی خواهیم کرد به شکل جامع‌تری به توصیف مجموعه داده‌های پیچیده و بزرگ بپردازیم.

موفقیت در در پیاده‌سازی دقیق و درست یک فرآیند داده‌کاوی تا حد زیادی به دانش، خلاقیت و مدت زمانی که طراح صرف آموزش مدل می‌کند بستگی دارد. در حقیقت، داده‌کاوی شبیه به حل یک معما است. قطعات جداگانه پازل به خودی خود ساختار پیچیده‌ای ندارند. با این‌حال، زمانی که به عنوان یک مجموعه واحد در کنار یکدیگر قرار می‌گیرند، تشریح کننده سامانه‌ای بزرگ و جامع می‌شوند. زمانی‌که برای اولین بار و بدون تجربه به سراغ تحلیل یک چنین سناریویی می‌روید و گام‌های اول را بر می‌دارید که شامل بررسی معما است، به احتمال زیاد احساس شکست می‌کنید، زیرا به درستی نمی‌دانید که باید چه کاری انجام دهید، نقطه شروع کجا است و به ترتیب باید چه گام‌هایی برداشته شوند. با این‌حال، وقتی بدانید چگونه با قطعات پازل کار کنید، متوجه می‌شوید کار آن‌چنان که نمود می‌کند سخت نیست. یک چنین قاعده‌ای بر دنیای داده‌کاوی نیز صدق می‌کند.

در ابتدای کار، طراحان فرآیند داده‌کاوی به احتمال زیاد اطلاعات زیادی در مورد منابع داده‌ای ندارند. اگر منابع در دسترس بودند، دیگر لزومی به انجام داده‌کاوی نبود، زیرا همه چیز به سادگی در دسترس قرار داشت و حتا به شکل دستی انجام این فرآیند امکان‌پذیر بود. به‌طور جداگانه‌، داده‌ها ساده، کامل و قابل توضیح به نظر می‌رسند. با این‌حال، در حالت اجماع، آن‌ها مانند پازلی به نظر می‌رسند که کمی ترسناک و درک آن دشوار است. بنابراین، در یک پروژه داده‌کاوی ضروری است که تحلیل‌گر و طراح دانش دقیق و ذهن خلاقی داشته باشند و بتوانند مشکلات را از زوایای دیگری مشاهده کنند.

داده‌کاوی یکی از حوزه‌های روبه‌رشد فناوری‌اطلاعات است. به همین دلیل است که اهل فن پیش‌بینی کرده‌اند در چند سال آینده داده‌کاوی به سرعت به حوزه‌ها و صنایع دیگر وارد خواهد شد. یکی از بزرگ‌ترین نقاط قوت داده‌کاوی ارائه راه‌حل‌ها و تکنیک‌های منحصر به‌فردی است که می‌توانند برای حل مجموعه‌ای از مشکلات استفاده شوند.

با توجه به این‌که داده‌کاوی فرآیندی است که به شکل یک کار عادی روی مجموعه‌ای عظیم از داده‌ها نظیر انبار داده‌ها و داده‌گاها (Data Mart) انجام می‌شود، بنابراین مشاغلی نظیر خرده‌فروشی‌های آنلاین، خطوط تولیدی کارخانجات، شرکت‌های مخابراتی، صنعت بهداشت و درمان، موسسات مالی و حمل و نقل از علاقه‌مندان به این حوزه هستند.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟