پذیرش گسترده کلان دادهها با پیشرفتهای سریع در فناوری که تولید، جمعآوری و تجزیه و تحلیل دادهها را ارزانتر و آسانتر میکند، تسهیل شده است. کلان داده مفهوم جدیدی نیست، آنچه جدید است، طبقهبندی و تجاریسازی کلان دادهها است.
امروزه دادهها توسط منابع مختلفی مثل شبکههای اجتماعی، دستگاههای تلفن همراه و حسگرهای هوشمند مورد استفاده در اینترنت اشیا تولید میشوند. در حالت کلی، بیشتر دادههای جمعآوریشده برای مشاهده و تجزیه و تحلیل آزادانه در دسترس همگان قرار دارد. با اینحال، ارزش واقعی نه در خود دادهها، بلکه در استخراج هوشمندانه دادهها قرار دارد.
مجمع جهانی اقتصاد (WEF) در گزارش آوریل 2019 اعلام کرد که تخمین زده میشود تا سال 2025 میزان دادههای تولید شده در روز در مقیاس جهانی از 400 اگزابایت فراتر رود. جالب آنکه در سال 2020 میلادی حجم دادههای تولید شده به رقم باورنکردنی 44 زتابایت رسید. تنها در یک مورد، شرکت متا روزانه حدود 4 پتابایت داده، شامل متن، تصویر و ویدیو و صوت تولید میکند.
چالشهای پیرامون کلان دادهها
جمعآوری عادی این حجم عظیم از دادهها سود چندانی ندارد، مگر اینکه دادهها به ارزش تجاری تبدیل شوند. در شرایطی که مدیریت دادهها و تجزیه و تحلیل آنها جذابیت خاص خود را دارد، اما تبدیل این دادهها به بینشهای تجاری ارزشمند کار سادهای نیست.
به همین دلیل است که دانشمندان داده در تلاش برای یافتن تکنیکهای نوینی هستند که فرایند تجزیه و تحلیل دادهها را سادهتر و سریعتر از قبل کند. هرچه روند پردازش دادهها سریعتر شود و در زمان مناسبی انجام شود، ارزش بیشتری دارد.
با اینحال، دادههایی که از منابع مختلف بهدست میآیند به اندازهای پیچیده هستند که پردازش آنها با استفاده از سیستمهای مدیریت پایگاهداده سنتی به یک معضل جدی تبدیل شد. از طرفی محدودیتهای فنی پایگاههای داده سنتی باعث شد تا انقلاب کلان دادهها با یک وقفه کوتاه روبرو شود.
پایگاههای داده سنتی یا همان رابطهای محدودیتهایی در ارتباط با ذخیرهسازی فیلدها و رکوردهای اطلاعاتی دارند و اگر قرار باشد از نوعهایی مثل Text در بانک اطلاعاتی استفاده کنیم، عملکرد بهشدت کاهش پیدا میکند. در نقطه مقابل، در دنیای کلان دادهها با افزایش اندازه دادهها روبرو هستیم که نه تنها فرایند مدیریت و سازماندهی آنها در پایگاهها داده را با مشکل روبرو میکند، بلکه فرایند پردازش آنها را نیز سخت میکند، زیرا به حافظه اصلی زیادی نیاز داریم تا بتواند این حجم عظیم از اطلاعات را نگهداری کند. پایگاههای داده غیررابطهای (NoSQL) کلید حل این مشکل هستند. امروزه تکامل فناوریهای مرتبط با کلان داده به ما امکان میدهد ضبط، ذخیرهسازی، پردازش و تجزیه و تحلیل دادهها در یک محیط توزیع شده را به بهترین شکل انجام دهیم. از فناوریهای مهمی که نقش تاثیرگذاری در مدیریت و پردازش کلان دادهها داشتند باید به هدوپ که چارچوبی برای تمامی فرآیندهای کلان داده است، سیستم فایل توزیع شده Hadoop (HDFS) برای ذخیرهسازی خوشهای توزیعشده و MapReduce برای پردازش دادهها اشاره کرد.
سیر تکاملی کلان دادهها
مفهوم کلان دادهها اولین بار توسط شرکت مشاورهای مککینزی مورد بررسی قرار گرفت. مککینزی کلان دادهها را با سه ویژگی حجم، سرعت و تنوع تعریف کرد و در توصیف آنها گفت: «چرخه حیات پردازش کلان دادهها را میتوان به اکتساب، پیشپردازش، ذخیرهسازی و مدیریت، حریم خصوصی و امنیت، تجزیه و تحلیل و مصورسازی طبقهبندی کرد.» شکل1
تکامل کلان دادهها را نشان میدهد. همانگونه که مشاهده میکنید از سال1990 به یکباره شاهد رشد نمایی کلان دادهها هستیم. جالب آنکه در دهه 1950 تنها 600 مگابایت داده تولید شده بود، اما تا سال 2010 این مقدار به 100 پتابایت رسید که برابر با 100,000,000,000 مگابایت است.
ناکامی پایگاههای داده سنتی در مدیریت کلان داده
سیستمهای مدیریت پایگاه داده رابطهای (RDBMS) تا همین اواخر، رایجترین رسانه ذخیرهسازی برای ذخیره دادههای تولید شده توسط سازمانها بودند.
سیستمهای مدیریت پایگاه داده رابطهای برای ذخیره دادههایی پدید آمدند که امکان نگهداری آنها در قالب یک متن ساده یا یک صفحه گسترده وجود نداشت و علاوه بر این، سازمانها نیازمند ذخیرهسازی اطلاعات ساختیافته بودند. بهطوری که رکوردهای جداول یک پایگاه داده، میزبان دادههایی بودند که هر یک به نوع مشخصی از اطلاعات اشاره داشتند. کلان دادهها درست در نقطه مقابل این معماری قرار دارند و یک فناوری نوظهور نسبت به پایگاه دادهای رابطهای به شمار میروند. به همین دلیل سازگاری این دو فناوری با یکدیگر اگر نگوییم غیر ممکن، باید بگوییم کار مشکلی است. از محدودیتهای مهم پایگاه داده سنتی در مدیریت کلان دادهها به موارد زیر باید اشاره کرد:
شکل 1
- افزایش تصاعدی در حجم دادهها که در مقیاس ترابایت و پتابایت است بحث مدیریت این حجم عظیم از دادهها را به یک چالش بزرگ برای RDBMSها تبدیل کرد.
- برای رفع مشکل مدیریت دادهها، سازندگان RDBMS قابلیت پشتیبانی از تعداد بیشتری از پردازندهها و مدیریت بیشتر حافظهها را به RDBMS اضافه کردند که به نوبه خود باعث افزایش هزینهها شد.
- تقریبا 80 درصد دادههای واکشی شده از پایگاههای دادهای
- نیمه ساختاریافته یا بدون ساختار هستند که بحث مدیریت و پردازش این دادهها را مشکل میکند.
- RDBMS نمیتواند دادههایی که با سرعت زیادی به آنها وارد میشوند را ذخیرهسازی کند.
جدول زیر تفاوتهای مهم و بنیادین RDBMS و کلان دادهها را نشان میدهد.
نکتهای که مهم است در ارتباط با کلان دادهها به آن اشاره داشته باشیم به تفاوت میان دو مفهوم کلان دادهها و دادهکاوی باز میگردد. جدول زیر تفاوتهای دو مفهوم دادهکاوی و کلان دادهها را نشان میدهد.
منابع کلان داده
همانگونه که اشاره شد، کلان دادهها از منابع مختلف قابل استخراج هستند و توسط منابع مختلف تولید میشوند. یکی از مهمترین دلایلی که باعث رشد انفجاری دادهها شده، دیجیتالی شدن انواع مختلفی از دستگاهها و خدمات است.
پرداخت قبوض الکترونیکی، خرید آنلاین، ارتباط از طریق رسانههای اجتماعی، ارسال ایمیل توسط سازمانهای مختلف، ارائه تبلیغات به شکل دیجیتالی از نمونههای این دیجیتالیسازی در مقیاس جهانی هستند. از مهمترین منابع تولید دادهها به موارد زیر باید اشاره کرد:
- حسگرها: مولفه کلیدی دنیای اینترنت اشیا هستند که نقش مهمی در تولید حجم عظیمی از اطلاعات دارند. از حسگرهای مهم در این زمینه باید به حسگرهای شتابسنج نصب شده در دستگاههای تلفن همراه برای حس ارتعاشات و حرکات، حسگرهای مجاورتی که در مکانهای عمومی بدون تماس فیزیکی با اشیاء استفاده میشود و حسگرهای نصب شده در وسایل نقلیه و تجهیزات پزشکی اشاره کرد.
- مراقبتهای بهداشتی: یکی دیگر از منابع مهمی هستند که روزانه حجم زیادی از دادهها را تولید میکنند. بهطور مثال، پرونده الکترونیک سلامت (EHRs) که اطلاعات بیمار مانند سوابق پزشکی، نسخههای پزشکان و نتایج آزمایشات را نگهداری میکند و پورتالهای مخصوص بیماران که به آنها اجازه میدهد به سوابق پزشکی شخصی خود که در EHR ذخیره شدهاند دسترسی داشته باشند و پایگاههای دادهای که توسط داروخانهها استفاده شده و اطلاعات دقیقی در ارتباط با داروهایی که به بیماران فروخته شدهاند را نگهداری میکنند چند نمونه ساده از کلان دادهها در حوزه پزشکی هستند.
- اطلاعات پرواز: روزانه پروازهای زیادی در سراسر جهان انجام میشود. بهطور مثال، تنها در یک مورد بیش از 2600 پرواز در امریکا به دلیل کرونا و هوای نامساعد در تعطیلات آغاز سال لغو شد. سیستمهای اطلاعات پرواز نصب شده در هواپیماها، هلیکوپترها و جتها فعالیتهای پرواز، اطلاعیههای خدمه پرواز و اطلاعات عملکرد هواپیما را ثبت میکنند.
- دادههای وب: به هر نوع تراکنش انجام شده در بستر وب اشاره دارد. کلیکهایی که روی لینکهای یک وبسایت یا موتورهای جستوجو انجام میشود یا دادههایی که در فروشگاههای آنلاین تولید و جمعآوری میشوند نمونه سادهای از این اطلاعات هستند. امروزه سازمانها با تحلیل جریان کلیک لینکها علایق مشتریان و الگوهای خرید آنها را شناسایی میکنند و توصیههایی به آنها ارائه میکنند. علاوه بر این، تحلیلها نقش مهمی در ارسال تبلیغات هدفمند برای مصرفکنندگان دارند.
- دادههای سازمانی: تراکنشهای ایمیلی و اسنادی هستند که در سازمانها تولید میشوند و برخواسته از فعالیتهای تجاری سازمانها هستند.
چه کاربردهای مهمی برای کلان دادهها قابل تصور است؟
کلان دادهها در تمامی صنایع و حوزهها کاربرد دارند و محدود به فعالیتهای خدماتی یا تولیدی نیستند، بهطوری که در سیاست، اقتصاد، اجتماع، فناوری، محیط زیست و قانون نشانههای روشنی از حضور کلان دادهها را مشاهده میکنیم. به بیان دقیقتر، کلان دادهها از سطوح تاکتیکی تا سطوح راهبردی را شامل میشوند. در حال حاضر کاربردی که برای ما به عنوان کاربر و مصرفکننده جلوه بیشتری دارد در حوزه خدمات است. امروزه فروشگاههای آنلاینی مثل آمازون در نمونه خارجی یا دیجیکالا در نمونه داخلی از اطلاعاتی که دارند برای مرتبسازی اجناس با هدف سهولت دسترسی مشتریان به محصولات یا خدمات استفاده میکنند.
در حوزه حملونقل، سامانهها و نرمافزارها از این تحلیلها استفاده میکنند تا دسترسی سریعتر و کم هزینهتری برای مسافرتهای درون شهری ایجاد کنند: بانکها، موسسات مالی و بیمهگر از این اطلاعات برای شناسایی کلاهبرداریها و نیز شناسایی مشتریان نمونه بهمنظور پرداخت وام استفاده میکنند شهرداریها از این اطلاعات استفاده میکنند تا مشکلات شهری را در اسرع وقت برطرف کنند: موتورهای جستوجو از این اطلاعات استفاده میکنند تا مفهوم محاوره شما را بهتر درک کنند و شما را مستقیم به صفحه مورد نظرتان هدایت کنند. فروشگاههای اینترنتی از این اطلاعات استفاده میکنند تا پیشنهادهای مناسبی به شما ارائه کنند و زنجیره عرضه و تقاضا را بهتر مدیریت کنند.
شیوع کووید 19 و رشد چند برابری کلان دادهها
از زمان شیوع کووید 19 بهنظر میرسد حوزههای بهداشت، آموزش و خردهفروشی بیشترین استفاده از کلان دادهها را داشتهاند. بهطوری که آموزش الکترونیک رواج زیادی پیدا کرد و حتا موسسات داخلی فعالتر از گذشته اقدام به برگزاری دورههای آنلاین کردند. در تمامی این موارد، شرکتهای خصوصی و موسسات دولتی اطلاعات ارزشمندی از مخاطبان بهدست آوردند که نیازمند پردازش هستند.
کاربرد ملموس کلان داده برای ما در حوزه خدمات مشهودتر از حوزههای دیگر است. شبکههای اجتماعی، پیامرسانها، تاکسیهای اینترنتی، فروشگاههای اینترنتی و ابزارهای مسیریابی نمونههای روشنی از خدمات هستند که قبل از ظهور این اپیدمی نیز به سرعت در حال رشد بودند. کرونا باعث تشدید استفاده از برخی خدمات و افول برخی دیگر از آنها شد. بهطور مثال، سفارش کالا از سایتهای اینترنتی با اقبال شدیدی روبهرو شد، بهطوری که مدیرعامل شرکت پست اعلام کرد در مقطعی از زمان کارمندان این شرکت در چند شیفت چرخشی سفارشهای پستی مردم را بهدستشان میرسانند. استفاده از اینترنت و شبکه داده به دلیل وقت آزاد مردم و آنلاین شدن بیشتر فعالیتها باعث نگرانی اپراتورها در مقیاس جهانی شد، اما در مقابل تعداد سفرهای درون و برونشهری کاهش یافت.
آموزش آنلاین یکی از مواردی بود که قبل از کرونا در کشور رواج چندانی نداشت. شاید اگر میخواستیم برای رفتن به سمت آموزش الکترونیکی برنامهریزی کنیم به دلیل وجود موانع و عدم تمایل آموزشگاهها باید چند سال بهانتظار مینشستیم و دست آخر هم خیلی از مشکلات حل نشده باقی میماند، اما کرونا در کنار همه مسائلی که به وجود آورد. نکات مثبتی هم داشت که حرکت به سوی آموزش الکترونیکی، چه از جانب آموزشگاهها و چه از جانب مردم یکی از آنها بود.
حجم عظیمی از محتوای آموزشی تنها در یک سال تولید شد که دستکم برای چند سال آینده به عنوان یک منبع کمک آموزشی خوب در اختیار دانشآموزان، دانشجویان، معلمان و اساتید قرار خواهد گرفت. علاوه بر این، دسترسی مناطق محروم به محتوای آموزشی با کیفیت را نیز تسهیل کرد. این محتواهای آموزشی که ترکیبی از فیلم کلاسها، اسلایدها، کوییزها، تمرینها، سوالات امتحانی و غیره است همگی نمونههای روشنی از کلان دادهها هستند.
کلام آخر
کلان داده (Big Data) یکی از مفاهیم پرتکرار عصر حاضر است که اهلفن به خوبی آنرا میشناسند، اما واقعیت مهمی در لابهلای این هزارتوی اطلاعات نهفته است. این حجم عظیم از دادهها ظرفیت آنرا دارند تا تغییر و تحولات مهمی در عرصههای مختلف اجتماعی و اقتصادی جامعه با دایره اثرگذاری گسترده در سطوح مختلف به وجود آوردند و به راحتی تصمیمگیریهای کلان در مقیاس سازمانی یا فراسازمانی (کشوری) را دستخوش تغییر کنند. کلان دادهها در رویکردهای پژوهشی بزرگ دادهمحور در سطوح و شیوههای تحلیل و تفسیر دادهها تغییرات مهمی بهوجود میآورند و همانگونه که در مقاله خاستگاه تحقیق در عملیات مشاهده خواهید کرد، تعریفی جدید برای تحقیقات کلاسیک ارائه میکنند که نمیتوان بهآسانی از کنار آن گذشت.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟