در دنیای دیجیتال، منابع مختلفی دادهها را تولید میکنند و علاوه بر این، رشد سریع فناوریهای دیجیتال باعث افزایش نرخ تولید حجم عظیمی از دادهها شده است. در شرایطی که حجم عظیمی از دادهها در دسترس همه شرکتها و سازمانها قرار دارد و فرصت کم نظیری در اختیار شرکتها و سازمانها قرار گرفته تا تحولات بنیادین و تاثیرگذاری در کسبوکارهای خود به وجود آورند، با اینحال، کمبود متخصصانی که بتوانند به درستی این دادهها را پردازش کنند کاملا احساس میشود. به بیان دقیقتر، امروزه بخش عمدهای از افرادی که خود را متخصص در حوزهای توصیف میکنند، در اصل آشنایی نسبی با چند نرمافزار دارند و آشنایی چندانی با مفاهیم تئوری و زیربنایی حوزه کاری خود ندارند. همین مسئله باعث شده تا این افراد نتوانند به درستی وظایف خود را انجام دهند و انتظارات شرکتها را برآورده کنند. این مشکل در دنیای کلان دادهها کاملا محسوس است. با توجه به اینکه در دنیای کلان دادهها با مجموعهای از دادههای بزرگ و پیچیده روبرو هستیم که پردازش آنها با استفاده از سیستمهای پایگاه داده یا نرمافزارهای پردازش داده سنتی کاری دشوار است و از طرفی این دادهها در بیشتر موارد نیازمند پالایش هستند، به ندرت قادر به پیدا کردن متخصصان خبره کلان داده در ایران هستیم.
ساختارمند یا فاقد ساختار
بهطور کلی کلان دادهها را مجموعه از دادههای ساختاریافته (structured)، ساختارنیافته (unstructured) و نیمهساختاریافته (semi-structured) در ابعاد پتابایت، اگزابایت، زتابایت و مقیاسهای بالاتر پدید آوردهاند. در چارچوب استاندارد، کلان داده و دادههای مرتبط با آنها با چهار کلمه انگلیسی که همگی با حرف V آغاز میشوند توصیف میشوند. این چهار V حجم (Volume)، سرعت (Velocity)، صحت (veracity) و تنوع (Variety) هستند. با گذشت زمان تعداد این Vها به چهلودو عدد رسیده که هر یک تعاریف خاص خود را دارند. البته همه آنها کاربرد عملیاتی ندارند و بیشتر برای تعریف یک جنبه خاص از دادهها استفاده میشوند.
- حجم: مقدار دادههایی است که روزانه تولید میشوند.
- سرعت: به نرخ رشد دادهها و مدت زمانی که برای پردازش دادهها صرف میشود اشاره دارد.
- تنوع اطلاعاتی: به ترکیب دادههای ساختاریافته، ساختارنیافته و نیمهساختاریافته اشاره دارد.
- صحت: به معتبر، دسترسپذیری و پاسخگو بودن دادهها اشاره دارد.
کلان دادهها با هدف پردازش حجم عظیمی از دادهها که رشد نمایی و تنوع زیادی دارند، صحت آنها موردتایید قرار گرفته و از ابزارها و روشهای هوشمند محاسباتی برای پردازش آنها استفاده شده به کار گرفته میشوند. رویکرد فوق به تصمیمگیری دقیقتر، کشف بینش و بهینهسازی ایدهها و کاهش هزینههای جاری کمک میکند.
از منظر تحولآفرینی، کلان داده تحول بزرگ بعدی دنیای فناوری اطلاعات و به ویژه متاورس را رقم میزند. بهطوری که کسبوکارهای اجتماعی (Social Business) را کاملا دگرگون خواهد کرد و راه را برای ورود به نسل بعدی پلتفرمهای هوشمند که مبتنی بر واقعیت مجازی و ترکیبی هستند همواره میکند. متخصصان و شرکتهای بزرگ با هدف سهولت در مدیریت و پردازش دادهها از انبارهای داده استفاده میکنند تا استخراج دانش دقیق از کلان دادهها کمتر پیچیده شود.
برخی کارشناسان دنیای تحلیل دادهها بر این باور هستند که دادهکاوی (Data Mining) کلید حل تمامی مشکلات مرتبط با تحلیل کلان دادهها است، در حالی که تجربه نشان داده این تکنیک در زمینه مدیریت مجموعه کلان دادههایی در مقیاس وسیع چندان کاربردی نیست. مسئله کلیدی در تحلیل کلان دادهها، عدم هماهنگی بین سیستمهای پایگاه داده و ابزارهای تحلیلی مانند دادهکاوی و تحلیلهای آماری (statistical analysis) است. این چالشها هنگامی به وجود میآیند که قصد کشف دانش و ارائه آن برای کاربردهای عملیاتی مختلف را دارید. یک مسئله اساسی در این زمینه نحوه توصیف کمی مشخصههای اصلی کلاندادهها است، بهطوری که دادهکاوی در این زمینه خوب عمل نمیکند.
به همین دلیل متخصصان این حوزه نظریات و مفاهیم جدیدی همچون معرفتشناختی (epistemological) را ارایه کردند. بهعلاوه، مطالعه در نظریه پیچیدگی کلان دادهها به درک مشخصههای اساسی و شکلگیری الگوهای پیچیده، سادهسازی ارائه دادهها، دریافت خلاصه اطلاعات و ارایه راهکاری برای طراحی مدلها و الگوریتمهای محاسباتی ویژه این مبحث کمک میکند. تابهامروز، پژوهشهای زیادی در زمینههای بیان شده پیرامون کلان دادهها و گرایشهای آن توسط پژوهشگران گوناگون انجام شده، اما هنوز نیاز به مطالعات بیشتر در این حوزه و زمینههای مرتبط نیاز است.
انقلاب کلان دادهها
نکته مهمی که باید به آن دقت کنید این است که هر مجموعه داده در دسترس با ویژگیهای کلان دادهها الزاما برای فرآیند تحلیل یا تصمیمگیری مناسب نیست. درک یک مجموعه داده و مفاهیم مرتبط با آن و برقراری ارتباط موثر با آن اغلب نیازمند ساخت یک مدل اولیه ذهنی است. بهطور مثال، فرض کنید قصد آموزش فرمولهای ریاضی به دانشآموزان یک مدرسه را دارید. به جای آنکه دانشآموزان را با مجموعهای بزرگ از فرمولها، معادلات و ارقام (کلان دادههایی از نوع ساختیافته) روبرو کنید، لازم است مقدمهای برای آنها ارایه کنید تا دانشآموزان بتوانند یک مدل اولیه ذهنی را تصور کنند و بدانند که چرا یادگیری معادلات و فرمولها برای آنها ضروری است. در ادامه باید جزییات غیرضروری را حذف کنید و تنها روی نکات برجسته متمرکز شوید تا بتوانید تصویری دقیقی از فرمولها به دانشآموزان نشان دهید. برای دستیابی به چنین هدفی باید بهطور دقیق تمامی جزییات مربوط به حوزه کاری خود را بدانید تا بتوانید به سادهترین شکل مفاهیم را به دانشآموزان انتقال دهید. همین قاعده در دنیای کلان دادهها مصادق پیدا میکند. هرچه دانشتان در ارتباط با مفاهیم و جزییات بیشتر باشد به شکل کارآمدتری قادر به حذف دادههای غیر ضروری هستید.
در سال 2001 میلادی گارتنر مقالهای تحت عنوان «مهمترین و تاثیرگذارترین گرایشهای دنیای فناوری بر صنعت» منتشر کرد که غوغای زیادی به پا کرد. در آن مقاله، این گرایشها با عناوین حجم داده (Data Volume)، سرعت داده (Data Velocity) و تنوع داده (Data Variety) معرفی شدند. البته توسعه این عناوین ادامه پیدا کرد و یک دهه بعد چهار V، هفت V، یازده V، پانزده V و اکنون چهلودو V به دنیای کلان دادهها وارد شدند. این Vها همگی ویژگیهای خاص دادهها را نشان میدهند.
ویژگیهای شاخص کلان دادهها
اکنون که سال ۲۰۲۲ فرا رسیده است، پیچیدگیهای دنیای تحلیل روز به روز در حال افزایش است و به همان نسبت فهرست تعداد Vهایی که برای تعریف کلان داده استفاده شدهاند افزایش پیدا کرده است. در ادامه توضیح کوتاهی در مورد پر استفادهترین Vها ارایه میکنیم. نکته مهمی که باید به آن دقت کنید این است که اگر به دنبال ورود به دنیای کلان دادهها هستید، ضروری است در ارتباط با این مفاهیم پژوهش کاملی انجام دهید.
- نوسان (Volatility): در سیستمهای تولیدی، متخصص باید آمادگی لازم برای رویارویی با نوسان دادهها را داشته باشد، بهطوری که عملکرد مدلها به واسطه دریافت دادههای غیرمنتظره مختل نشوند و علاوه بر این، باید آمادگی دریافت ترکیبی از دادههای عددی و کاراکتری را داشته باشید.
- تغییرپذیری (Variability): به ناسازگاری مجموعههای داده اشاره دارد که مدیریت فرآیند تحلیل را دشوار میکند. مشکل فوق به این دلیل به وجود میآید که منابع در دسترس علم دادهها دائما در حال تغییر است. ممکن است مدلهایی که در فرآیند تولید قرار میگیرند با دادههای غیرقابل پیشبینی تغذیه شوند.
- تنوع (Variety): متخصصان کلان دادهها با قالبهای داده گوناگون (فایلهای متنی، پایگاه دادههای رابطهای، شبکههای گراف، پایگاه داده غیر رابطهای) و سطوح مختلفی از پیچیدگی دادهها روبرو هستند. تنوع در ارتباط با ساختاریافته، ساختارنیافته و نیمهساختاریافته بودن دادهها نیز مطرح است. از سوی دیگر، منابع دادهای که دادهها از آنها جمعآوری میشوند، متنوع هستند و همین تنوع منابع، زمان تحلیلها را بیشتر و ارزش آنها را افزایش میدهد. به بیان دیگر، تنوع به نوع و ماهیت دادهها باز میگردد که به پژوهشگر جهت تحلیل و ارایه بینشی دقیق کمک میکند.
- حجم (Volume): با افزایش دستگاههای با قابلیت اتصال به اینترنت، افراد بیشتری از تجهیزات و حسگرهای هوشمند استفاده خواهند کرد. بنابراین حجم دادهها افزایش پیدا میکند. حجم به کمیت دادههای تولید و ذخیرهسازی شده اشاره دارد. حجم دادهها نشانگر ارزش و بینش بالقوه نهفته در دادهها است.
- ارزش (Value): علم داده با افزایش دادههای موجود و توسعه روشهای جدید، ارزش روزافزونی برای کاربران فراهم میکند.
- تیغه (Vane): علم داده میتواند نقش مهمی در تصمیمگیریهای صحیح داشته باشد.
- رایج (Vanilla): سادهترین و معمولترین مدلها اگر طراحی دقیق و درستی داشته باشند ارزشمند هستند.
- مزیت (Vantage): کلان داده به کاربر یک دیدگاه منحصر به فرد از سیستمهای پیچیده میدهد.
- ابهام (Vagueness): به معنای داده یافت شده صرفنظر از حجم داده در دسترس است و بهطور معمول غیرشفاف و مبهم است.
- اعتبار (Validity): به این معنا است که انجام تحلیل دقیق برای داشتن پیشبینیهای معتبر رویکردی ضروری است.
- شجاعت (Valor): در رویارویی با کلان دادهها، تحلیلگر باید از سد چالشهای مختلف عبور کند.
- تمرکز متغیر (Varifocal): کلان دادهها در تعامل با علم دادهها امکان مشاهده مفاهیم کلی و جزییات را بهطور همزمان ارایه میکنند.
- ناخواسته (Varmint): هر چه کلان دادهها بزرگتر شود به همان نسبت تضاد بیشتر میشود که روی ارایه نتایج درست تاثیر منفی میگذارد.
- انحراف (Veer): با پیدایش مفهومی بهنام تحلیل داده چابک، پژوهشگر باید همسو با خواستههای کاربر حرکت کند و هر زمان از او درخواست شد سریعا تغییر جهت دهد تا خروجی کار قابل قبول باشد.
- پرده (Veil): کلان دادهها اجازه میدهند حقایق پشت پرده را نشان دهید و علاوه بر این، تاثیر متغیرهای پنهان در دادهها را بررسی کنید.
- سرعت (Velocity): نه تنها حجم دادهها با سرعت نمایی در حال افزایش است، بلکه نرخ تولید داده نیز به طور مداوم در حال رشد است. سرعت به روند تولید و انتشار سریع دادهها و پاسخگویی به تقاضا برای پردازش دادهها اشاره دارد.
- محل (Venue): برای آنکه تحلیل کلان دادهها نتایج مدنظر را به همراه داشته باشد باید فرایند سازماندهی و پردازش روی موقعیتهای مختلفی انجام شود. بهطور مثال، گاهی اوقات پردازش در ایستگاههای کاری و گاهی اوقات در ابر انجام میشود.
- پیشبینی (Vaticination): به تحلیلهای پیشگویانه مبتنی بر رویکردهای آماری اشاره دارد. این پیشبینیها میتوانند بسته به سطح دقت و پیچیدگی مسئله، دقیق یا اشتباه باشند.
- گاوصندوق (Vault): به مجموعه کلان دادههایی اشاره دارد که به لحاظ امنیتی مهم هستند و نباید به شکل عادی در دسترس همگان قرار داشته باشند.
- صیقلی (Varnish): نحوه تعامل کاربر با خروجی کار پژوهشگر را نشان میدهد.
- گستردگی (vastness): ارتباط مستقیم با حسگرها و صنعت اینترنت اشیا دارد که حجم زیادی از دادهها را تولید میکنند.
- صحت (Veracity): صحت به کیفیت دادههای ثبت شده که به شدت متنوع هستند و درستی تحلیلها را تحت تاثیر قرار میدهند اشاره دارد. در همین زمینه، تکرارپذیری رویکردی حیاتی برای انجام تحلیلهای درست است.
- حکم (Verdict): هرچه تعداد افرادی که بر تصمیمگیریهای مدل تاثیرگذار هستند بیشتر میشود به همان نسبت صحت، اعتبار خروجی و تحلیل اهمیت پیدا میکند.
- نظم (Versed): متخصصان در بیشتر موارد برای انجام درست کارها باید از جزییات مختلفی اطلاع داشته باشند؛ به همین دلیل نیازمند سازماندهی و نظمدهی به جزییات هستند.
- کنترل نسخه (Version Control): کنترل و پیگیری تغییرات واحد اطلاعاتی در فرآیندهای تحلیل همواره لازم است.
- موشکافی (Vet): علم داده امکان موشکافی فرضیات و تقویت بینش با بهرهگیری از شواهد را برای پژوهشگر به وجود میآورد.
- جدال (Vexed): به معنای توانایی متخصص در رویارویی با مسائل پیچیده و بزرگ و ارایه راهحلی برای آنها است.
- پایداری (viability): طراحی یک مدل پایدار کار دشواری است و ساخت سیستمی که بر پایه این مدل کار کند، سختتر از آن.
- مصورسازی (Visualization): مصورسازی با نمودارها و گرافیکها، بهترین راه است که مشتریان با مدل ارتباط برقرار میکنند.
- رواج (Vogue): یادگیری ماشین به اصلیترین جریان بسیاری از صنایع تبدیل شده، بهطوری که امروزه بیشتر کسبوکارها برای دستیابی به مزیت رقابتی از یادگیری ماشین استفاده میکنند.
- سفر (Voyage): پژوهشگر هر چه بیشتر با مسائلی که علم داده فراهم میکند روبرو میشود، تجربه بیشتری به دست میآورد.
- پر جنبوجوش (vibrant): تیمهای فعال در زمینه تحلیل دادهها باید پر جنبوجوش باشند تا بتوانند بینشها، ایدهها و مدلهای دقیقی ارایه کنند.
- خوراکرسان (Victual): کلان داده سوخت موردنیاز علم دادهها را تامین میکند.
- شیوعپذیری (Viral): به انتشار سریع دادهها میان کاربران و نرمافزارهای گوناگون اشاره دارد.
- تخصص (Virtuosity): با توجه به ماهیت پویای این حوزه، ضروری است که دانشمند داده مهارت و تخصص خود در این حوزه را دائما ارتقا دهد.
انواع تحلیلها در دنیای کلان دادهها
تحلیلهای پیشگویانه (Predictive Analytics): راهحلی است که از تجربه (داده) میآموزد رفتار آینده افراد را برای اتخاذ تصمیمات بهتر پیشبینی کند (در اینجا، پیشبینی تنها محدود به انسانها نیست و امکان پیشبینی تحولات اجتماعی، تجاری، اقتصادی و نمونههای مشابه وجود دارد). تحلیلهای پیشگویانه از مدلهای پیشبین (predictive models) استفاده میکنند. مدل پیشبین، رویکردی است که الگوهای رفتاری یک فرد را پیشبینی میکند. این مدل، ویژگیهای (مشخصهها) افراد (موجودیتها) را به عنوان ورودی دریافت میکند و یک امتیاز پیشبینی به عنوان خروجی ارایه میکند. هرچه امتیاز پیشبینی بالاتر باشد، احتمال بروز آن رفتارها از طریق عامل بیشتر است.
- تحلیلهای توصیفی (Descriptive Analytics): این نوع تحلیلها ذات توصیفی دارند. تحلیلهای توصیفی دادهها را خلاصهسازی کرده و کمتر بر جزئیات دقیق هر بخش از اطلاعات تمرکز میکنند و بیشتر روی روایت کلی متمرکز هستند.
- تحلیلهای تجویزی (Prescriptive Analytics): تحلیلهای تجویزی ذاتا ماهیت پیشگویانه دارند. این نوع تجزیه و تحلیل نتایج مطلوب را بر مبنای انجام یک عمل مشخص انجام میدهد و اقدامات مختلفی را برای رسیدن به یک نتیجه خاص پیشنهاد میکند. بنابراین، از یک سیستم بازخورد قوی استفاده میکند که بهطور مداوم رابطه بین عمل و نتیجه را یاد میگیرد و به روز میکند
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟