علم داده چیست؟
علم داده، ریاضی و آمار، برنامهنویسی تخصصی، تجزیهوتحلیل پیشرفته، هوش مصنوعی و یادگیری ماشین را با مهارتهای خاص دیگری ترکیب میکند تا بینشهای پنهان در دل دادههای سازمانی را آشکار کند. از این بینشها میتوان برای هدایت تصمیمگیریها و برنامهریزیهای استراتژیک استفاده کرد.
چرخه حیات یک پروژه علم دادهها
حجم فزاینده منابع داده و به طبع آن دادهها باعث شده تا علم داده یکی از سریعترین زمینههای در حال رشد در هر صنعتی باشد. در نتیجه، جای تعجب نیست که نقش دانشمند داده توسط هاروارد بیزینس ریویو بهعنوان جذابترین شغل قرن بیستویکم شناخته شده است. سازمانها برای تفسیر دادهها و دریافت توصیههای عملی برای بهبود نتایج تجاری بهطور فزایندهای به دادهها متکی هستند. چرخه حیات علم داده شامل نقشها، ابزارها و فرآیندهای مختلفی است که تحلیلگران را قادر میسازد تا بینشهای عملی را بهدست آورند. بهطور معمول، یک پروژه علم داده مراحل زیر را طی میکند تا بهسرانجام برسد:
- جذب داده: چرخه حیات با جمعآوری دادهها آغاز میشود. این دادهها ساختاریافته یا بدون ساختار هستند که به روشهای متنوعی از منابع مختلف جمعآوری میشوند. این روشها میتوانند شامل ورود دستی، جستوجو در وب یا دادههایی باشند که بهشکل لحظهای توسط سیستمها و دستگاهها تولید میشوند. منابع داده ممکن است میزبان دادههای ساختاریافته، مانند دادههای مشتریان یا دادههای بدون ساختار مثل فایلهای گزارش، ویدئو، صدا، تصاویر، اینترنت اشیاء، رسانههای اجتماعی و غیره باشند.
- ذخیرهسازی دادهها و پردازش آنها: از آنجایی که دادهها میتوانند فرمتها و ساختارهای متفاوتی داشته باشند، شرکتها باید سیستمهای ذخیرهسازی متفاوتی را بر اساس نوع دادههایی که باید جمعآوری شوند، در نظر بگیرند. برای این منظور تیمهای فناوری اطلاعات و مدیریت بر دادهها، استانداردهایی در مورد ذخیرهسازی و ساختار دادهها آماده میکنند تا جریانهای کاری پیرامون تحلیلها، یادگیری ماشین و مدلهای یادگیری عمیق شکل یکپارچهای داشته باشند. این مرحله شامل پاکسازی دادهها، کپیبرداری، تبدیل و ترکیب دادهها با استفاده از فرآیندهای ETL (استخراج، تبدیل، بارگذاری) یا سایر فناوریهای یکپارچهسازی دادهها است. این آمادهسازی دادهها برای ارتقاء کیفیت دادهها قبل از ذخیرهسازی آنها در انبار داده، دریاچه داده یا مخزن انجام میشود.
- تجزیهوتحلیل دادهها: دانشمندان داده، تجزیهوتحلیل دادههای اکتشافی را برای بررسی سوگیریها، الگوها، محدودهها و توزیع مقادیر در دادهها انجام میدهند. این فرآیند اکتشاف و تجزیهوتحلیل دادهها به آنها کمک میکند تا آزمایشهای a/b را انجام دهند. همچنین، به تحلیلگران اجازه میدهد تا ارتباط دادهها، بهمنظور تلاش برای مدلسازی و انجام تجزیهوتحلیلهای پیشگویانه را کشف کرده و بهشکل دقیقتر از دادهها استفاده کنند. بسته به دقت مدل، سازمانها از اطلاعات دریافتشده برای تصمیمگیریهای تجاری با هدف دستیابی به بینش موردنظر استفاده میکنند و دامنه فعالیتهای تجاری را گسترش میدهند.
- ارتباط: در نهایت، بینشها در قالب گزارشها و سایر مکانیزمهای مصورسازی دادهها مورد استفاده قرار میگیرند تا درک بینشها و تاثیر آنها بر تجارت برای تحلیلگران کسبوکار و سایر ذینفعان آسانتر شود. زبانهای برنامهنویسی علم دادهها مثل آر یا پایتون قابلیتهایی برای مصورسازی در اختیار سازمانها قرار میدهند. البته، دانشمندان داده میتوانند از ابزارهای مصورسازی اختصاصی نیز استفاده کنند.
علم داده و دانشمند داده
علم داده بهعنوان یک رشته شناخته میشود، در حالی که دانشمند داده، عنوان شغلی مرتبط با این رشته است. دقت کنید که دانشمندان داده مسئول مستقیم همه فرآیندهای درگیر در چرخه حیات علم داده نیستند. بهعنوان مثال، خطوط انتقال داده معمولا توسط مهندسان داده مدیریت میشود، اما دانشمند داده ممکن است توصیههایی در مورد نوع دادههای مفید یا نحوه ساخت این خطوط ارائه دهد. در حالی که دانشمندان داده میتوانند مدلهای یادگیری ماشین بسازند، در مقیاس کلان به مهارتهای مهندسی نرمافزاری بیشتری برای بهینهسازی یک برنامه برای اجرای سریعتر نیاز است. به همین دلیل، در بیشتر موارد، یک دانشمند داده با مهندسان یادگیری ماشین برای مقیاسبندی مدلهای یادگیری ماشین کار میکند.
بهطور معمول، مسئولیتهای دانشمند داده ممکن است با یک تحلیلگر داده همپوشانی داشته باشد، بهویژه برای تجزیهوتحلیل دادههای اکتشافی و مصورسازی دادهها. با این حال، مجموعه مهارتهای یک دانشمند داده گستردهتر از یک تحلیلگر داده است. علاوه بر این، دانشمندان داده از زبانهای برنامهنویسی رایج مثل آر و پایتون برای استنتاج آماری و مصورسازی دادهها استفاده میکنند.
برای انجام این وظایف، دانشمندان داده به علوم کامپیوتر و مهارتهای علمی بیشتری نسبت به یک تحلیلگر تجاری عادی یا تحلیلگر داده نیاز دارند. همچنین، دانشمند داده باید درباره جنبههای مختلف کسبوکارهایی که قصد ورود به آنها را دارد مثل، تجارت الکترونیک، امور مالی یا مراقبتهای بهداشتی اطلاعات کافی داشته باشد. بهطور خلاصه، یک دانشمند داده باید توانایی انجام کارهای زیر را داشته باشد:
- اطلاعات کافی در مورد کسبوکار داشته باشد تا بتواند پرسشهای مربوطه را مطرح کند و نقاط مشکلآفرین کسبوکار را شناسایی کند.
- از آمار و علوم کامپیوتر، همراه با هوش تجاری در زمینه تجزیهوتحلیل دادهها استفاده کند.
- از طیف گستردهای از ابزارها و تکنیکها برای تهیه و استخراج دادهها استفاده کند. به بیان دقیقتر، توانایی کار با انواع مختلف پایگاههای داده رابطهای و غیررابطهای در مورد دادهکاوی را داشته باشد و از روشهای مختلفی برای یکپارچهسازی دادهها استفاده کند.
- از کلان دادهها و به کمک راهکارهای تجزیهوتحلیل، به استخراج بینش از دادهها پرداخته و پیشبینیهای دقیقی ارائه کند. برای این منظور باید توانایی کار با مدلهای یادگیری ماشین، پردازش زبان طبیعی و یادگیری عمیق را داشته باشد.
- توانایی ساخت برنامههایی را داشته باشد که پردازشها و محاسبات روی دادهها را بهشکل خودکار انجام میدهند.
- توانایی تشریح مباحث فنی را در قالب داستانهایی داشته باشد تا تصمیمگیرندگان و ذینفعان در هر سطحی از دانش فنی منظور او را درک کنند.
- توضیح دهد که چگونه میتوان از نتایج بهدست آمده برای حل مشکلات تجاری استفاده کرد.
- با سایر اعضای تیم علم داده، مثل تحلیلگران داده و کسبوکار، معماران فناوری اطلاعات، مهندسان داده و توسعهدهندگان برنامه همکاری کند.
این مهارتها بهشدت مورد توجه شرکتها قرار دارند و در نتیجه، بیشتر افرادی که وارد حرفه علم داده میشوند، سعی میکنند در دورههای مختلف شرکت کنند تا مهارتهای لازم را کسب کنند.
علم داده در مقابل هوش تجاری
با توجه به اینکه علم داده و هوش تجاری تشابهات زیادی دارند با یکدیگر اشتباه گرفته میشوند، زیرا هر دو روی تجزیهوتحلیل دادههای سازمان متمرکز هستند، اما به شیوههای متفاوتی اینکار را انجام میدهند.
هوش تجاری به مجموعه اقدامات آمادهسازی دادهها، دادهکاوی، مدیریت دادهها و مصورسازی دادهها اشاره دارد. ابزارها و فرآیندهای هوش تجاری به کاربران نهایی این امکان را میدهند که اطلاعات کاربردی را از دل دادههای خام استخراج کنند. همین مسئله باعث شده تا هوش تجاری تصمیمگیریهای مبتنی بر دادهها در سازمانها و صنایع مختلف را تسهیل کند. هوش تجاری بیشتر بر دادههایی که از قبل موجود بودهاند، متمرکز است و بینشهای ارائهشده توسط ابزارهای هوش تجاری ماهیت توصیفیتری نسبت به علم دادهها دارند. بهطوری که از دادهها برای درک آنچه قبلا اتفاق افتاده استفاده میکند تا بتواند اطلاعات کلی درباره مجموعه اقداماتی که باید در آینده انجام شود، ارائه دهد. هوش تجاری بهسمت دادههای ایستا که معمولا ساختارمند هستند، متمایل است. در مقابل علم داده سعی میکند از دادههای توصیفی برای تعیین سنجههای پیشبینیکننده استفاده کند و در ادامه، برای دستهبندی دادهها یا پیشبینیها از این متغیرها استفاده کند.
با اینحال، نکته مهمی که باید به آن دقت کنید این است که علم داده و هوش تجاری در مقابل یکدیگر قرار ندارند، سازمانهای هوشمند از هر دو برای درک کامل و استخراج ارزش از دادههای خود استفاده میکنند.
ابزارهای علم داده
دانشمندان داده برای انجام تجزیهوتحلیل دادههای اکتشافی و رگرسیون آماری به زبانهای برنامهنویسی محبوب متکی هستند. این زبانهای منبعباز از مدلسازی آماری ازپیشساختهشده، یادگیری ماشین و قابلیتهای گرافیکی پشتیبانی میکنند. این زبانها بهشرح زیر هستند:
- R Studio: محیط توسعه R Studio به توسعهدهندگان اجازه میدهد از زبان برنامهنویسی آر و یک محیط توسعه کارآمد برای محاسبات آماری و گرافیکی استفاده کند.
- پایتون: یک زبان برنامهنویسی پویا و انعطافپذیر است. پایتون شامل کتابخانههای مختلفی مثل NumPy، Pandas، Matplotlib برای تجزیهوتحلیل سریع دادهها است.
لازم به توضیح است که برای تسهیل اشتراکگذاری کدها و سایر اطلاعات، دانشمندان داده ممکن است از نوتبوکهای GitHub و Jupyter نیز استفاده کنند. دو ابزار رایج سازمانی که برای تجزیهوتحلیل آماری استفاده میشوند بهشرح زیر هستند:
- SAS: مجموعه ابزار جامع، برای مصورسازیها و داشبوردهای تعاملی با هدف تجزیهوتحلیل، گزارش، دادهکاوی و مدلسازی پیشگویانه است.
- IBM SPSS: قابلیتهایی درباره تجزیهوتحلیل آماری پیشرفته ارائه میکند و مشتمل بر کتابخانه بزرگی از الگوریتمهای یادگیری ماشین، تجزیهوتحلیل متنی، توسعهپذیری متن باز، ادغام کلان دادهها و استقرار یکپارچه مدلها در برنامههای کاربردی است.
دانشمندان داده از پلتفرمهای پردازش کلاندادهها مثل Apache Spark، چارچوب منبعباز Apache Hadoop و پایگاههای داده NoSQL برای انجام کارهای خود استفاده میکنند. آنها از طیف گستردهای از ابزارهای مصورسازی دادهها، از جمله اکسل مایکروسافت، ابزارهای مصورسازی تجاری Tableau و IBM Cognos و ابزارهای منبع باز مثل D3، کتابخانه js استفاده میکنند که برای ساخت نمودارهای مصورسازی تعاملی دادهها مورد استفاده قرار میگیرند، همچنین از نمودارهای RAW برای انجام فعالیتهای روزمره استفاده میکنند. برای ساخت مدلهای یادگیری ماشین، دانشمندان داده اغلب مجبور هستند از چارچوبهایی مثل PyTorch ،TensorFlow ،MXNet و Spark MLib نیز استفاده کنند.
بهطور معمول، پروژههای علم دادهها و تجزیهوتحلیل دادهها زمانبر هستند و از طرفی شرکتها بهدنبال شتاب در بازگشت سرمایه خود هستند. به همین دلیل سعی میکنند به سراغ استخدام استعدادهای برتر در این زمینه بروند. افرادی که مهارتهای مختلفی برای تجزیهوتحلیل دادهها دارند. در سویی دیگر، برخی شرکتها به سراغ پلتفرمهای علم دادههای مبتنی بر یادگیری ماشین (DSML) میروند و ترجیح میدهند روی مفهومی که «دانشمند داده شهروند» نام دارد، متمرکز شوند.
پلتفرمهای DSML از خودکارسازی، پورتالهای سلفسرویس و رابطهای کاربری کمکد یا بدون کد استفاده میکنند تا افرادی که سابقه کمی در زمینه فناوری دیجیتال یا علم دادهها دارند، بتوانند با استفاده از علم داده و یادگیری ماشین، ارزش تجاری ایجاد کنند. علاوه بر این، پلتفرمهای فوق با ارائه یک رابط فنی از دانشمندان داده خبره نیز پشتیبانی میکنند. استفاده از پلتفرم DSML باعث میشود همکاری درونسازمانی بیشتر و کارآمدتر شود.
علم دادهها و محاسبات ابری
رایانش ابری دسترسی به توان پردازش قدرتمند، فضای ذخیرهسازی کافی و سایر ابزارهای مورد نیاز برای پروژههای علم داده را در قالب یک پلتفرم مقیاسپذیر در اختیار متخصصان قرار میدهد.
از آنجایی که علم داده اغلب از کلان دادهها استفاده میکند، ابزارهایی که توانایی مقیاسپذیری با دادهها را دارند، بهویژه برای پروژههای حساس به زمان اهمیت زیادی دارند. راهحلهای ذخیرهسازی ابری، مثل دریاچههای داده، دسترسی به زیرساختهای ذخیرهسازی را فراهم میکنند که میتوانند حجم زیادی از دادهها را بهراحتی دریافت و پردازش کنند. این سیستمهای ذخیرهسازی انعطافپذیری لازم را برای کاربران نهایی فراهم میکنند و به آنها اجازه میدهند در صورت نیاز تغییراتی در خوشههای بزرگ اعمال کنند. آنها میتوانند گرههای محاسباتی افزایشی را برای تسریع در انجام کارهای پردازش دادهها اضافه کنند و به کسبوکار اجازه میدهند تا پردازشهای کوتاهمدتی برای دستیابی به نتایج بلندمدت انجام دهند. بهطور معمول، پلتفرمهای ابری مدلهای قیمتگذاری متفاوتی دارند و بر مبنای الگوی اشتراکی، منابع موردنیاز را در اختیار کاربران نهایی قرار میدهند. آمارها نشان میدهند فناوریهای منبعباز بهطور گسترده در مجموعه ابزارهای علم داده استفاده میشوند. وقتی تیمها بارهای کاری را در فضای ابری میزبانی میکنند، دیگر دغدغهای در مورد نصب، پیکربندی، نگهداری یا بهروزرسانی تجهیزات بهشکل محلی ندارند. امروزه، ارائهدهندگان خدمات ابری بزرگ مثل آیبیام، مایکروسافت، گوگل، آمازون و نمونههای مشابه، کیتهای قابل استفادهای را طراحی کردهاند که دانشمندان داده را قادر میسازد تا مدلهایی را بدون کدنویسی بسازند و به بینش دقیقی، برخواسته از دادهها، دست پیدا کنند.
موارد استفاده علم داده
علم دادهها مزایای زیادی در اختیار شرکتها قرار میدهد. با اینحال، در بیشتر موارد، علم دادهها بهمنظور بهینهسازی فرآیندها از طریق خودکارسازی هوشمند، هدفگذاری و شخصیسازی پیشنهادها با هدف بهبود تجربه مشتری مورد استفاده قرار میگیرد. در کاربردهای خاصتر، علم دادهها برای موارد زیر مورد استفاده قرار میگیرد:
- بانکهایی که خدمات سریعی مثل وامها را از طریق اپهای موبایل ارائه میدهند، میتوانند با استفاده از مدلهای ریسک اعتباری مبتنی بر یادگیری ماشین و معماری ترکیبی ابرمحور، فرآیند تخصیص یا عدم تخصیص وام به مشتریان را بررسی کنند.
- یک شرکت الکترونیکی در حال توسعه حسگرهای چاپ سهبعدی برای هدایت خودروهای خودران است. این شرکت برای انجام درست این کار به ابزارهای علم داده و تجزیهوتحلیل برای افزایش دقت تشخیص اشیاء در زمان واقعی متکی است.
- یک ارائهدهنده راهحل خودکارسازی فرآیند رباتیک (RPA) میتواند یک راهحل استخراج فرآیندهای کسبوکار شناختی ایجاد کند که زمان رسیدگی به حوادث را بین ۱۵ تا ۹۵ درصد برای مشتریان کاهش دهد. این راهحل برای درک محتوا و احساسات ایمیلهای مشتریان باید آموزشهای مبتنی بر دادهها را دریافت کند تا تیم فروش بتوانند توصیههای ارزشمندی از طریق ایمیل به مشتریان ارائه دهد.
- یک شرکت فعال در زمینه چندرسانهای میتواند یک پلتفرم تجزیهوتحلیل مخاطبمحور ایجاد کند که به مشتریان امکان دهد تا ببینند چه عاملی باعث جذب مخاطبان بیشتر میشود. این راهحل میتواند از تجزیهوتحلیل عمیق و یادگیری ماشین برای دستیابی به بینش زمان واقعی در مورد رفتار بیننده استفاده کند.
علم دادهها و موقعیتهای شغلی این حوزه
علم داده به شما این فرصت را میدهد تا روی یک جنبه تخصصی تمرکز کنید. از موقعیتهای شغلی علم دادهها به موارد زیر باید اشاره کرد:
دانشمند داده
یک دانشمند داده مشکلات را شناسایی کرده و راهکارهای دادهمحوری برای حل آنها ارائه میدهد. همچنین، به تشریح این مسئله میپردازد که دادههای موردنیاز باید از چه منابعی دریافت شوند. این متخصصان در استخراج، پالایش و ارائه دادههای مربوطه به سازمانها کمک میکنند. بهطور معمول، یک دانشمند علم دادهها به مهارتهای برنامهنویسی (SAS، R، Python)، داستانسرایی و مصورسازی دادهها، مهارتهای آماری و ریاضی، دانش مدیریت کلان داده و پایگاههای داده و یادگیری ماشین نیاز دارند.
تحلیلگر داده
تحلیلگران، شکاف بین دانشمندان داده و تحلیلگران تجاری را پر میکنند و دادهها را سازماندهی و تجزیهوتحلیل میکنند تا به پرسشهای سازمانها پاسخ دهند. آنها روی تجزیهوتحلیلهای فنی متمرکز میشوند و سعی میکنند تحلیلهای کیفی ارائه دهند. یک تحلیلگر داده به مهارتهای آماری و ریاضی، مهارتهای برنامهنویسی (SAS، R، Python) و مصورسازی دادهها نیاز دارد.
مهندس داده
مهندسان داده بر توسعه، استقرار، مدیریت و بهینهسازی زیرساخت داده و خطوط انتقال دادههای سازمانی متمرکز هستند. مهندسان با انتقال و تبدیل دادهها به ماهیتی که امکان اجرای کوئریها روی آنها وجود داشته باشد به دانشمندان داده کمک میکنند. یک مهندس داده به مهارتهایی در کار با پایگاههای داده NoSQL مثل MongoDB، Cassandra DB، زبانهای برنامهنویسی مثل جاوا، اسکالا و فریمورکهایی مثل Apache Hadoop نیاز دارد.
یک دانشمند داده چه میکند؟
اکنون میدانید علم داده چیست و حتما از خود میپرسید که دانشمند داده دقیقا چه کاری انجام میدهد. یک دانشمند داده، دادههای کسبوکارها را تجزیهوتحلیل میکند تا بینشهای معناداری را استخراج کند. بهعبارت دیگر، یک دانشمند داده مشکلات تجاری را از طریق یک سری مراحل بهشرح زیر حل میکند:
- قبل از پرداختن به جمعآوری و تجزیهوتحلیل دادهها، دانشمند داده پرسشهایی مطرح میکند تا بتواند مسئله را بهدرستی درک کند.
- در مرحله بعد، دانشمند داده مجموعه صحیحی از متغیرها و مجموعه دادهها را تعیین میکند.
- دانشمند داده، دادههای ساختاریافته و بدون ساختار را از منابع مختلفی جمعآوری میکند. به بیان دقیقتر، به سراغ دادههای سازمانی، دادههای عمومی و غیره میرود.
- پس از جمعآوری دادهها، دانشمند داده، دادههای خام را پردازش کرده و آنها را به قالبی مناسب برای تجزیهوتحلیل تبدیل میکند. این رویکرد شامل پالایش و اعتبارسنجی دادهها برای تضمین یکنواختی، کامل و دقیق بودن آنها است.
- پس از اینکه دادهها بهشکل قابل استفاده تبدیل شدند به یک سیستم تحلیلی مبتنی بر یادگیری ماشین یا یک مدل آماری وارد میشوند. اینجا است که دانشمندان داده الگوها و روندها را تجزیهوتحلیل و شناسایی میکنند.
- هنگامی که دادهها بهطور کامل ارائه شدند، دانشمند دادهها برای یافتن فرصتها و راهحلها آنها را تفسیر میکند.
- دانشمندان داده کار را با تهیه نتایج و بینش برای اشتراکگذاری با ذینفعان و انتقال نتایج نهایی بهاتمام میرسانند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟