دادههای ذخیره شده در انبار داده از سامانههای عملیاتی مختلف همچون بازاریابی یا فروش دریافت میشوند. این دادهها ممکن است از یک فروشگاه داده عملیاتی دریافت شوند و ممکن است برای انجام عملیات دقیقتر به پالایش نیاز داشته باشند. به این ترتیب باید اطمینان حاصل کرد پیش از استفاده از انبار داده یا گزارشگیری دادهها کیفیت قابل قبولی دارند. برخی از دادهها برای پردازش به یک فضای عملیاتی کوچکتر وارد میشوند.
در حال حاضر دو رویکرد کلی در روند پردازش دادهها در انبار دادهها وجود دارد. ETL سرنام Extract-Transformation-Load در ارتباط با انبارهای داده معمولی استفاده میشود و روی مفاهیم استخراج، تبدیل و بارگذاری متمرکز است. این مدل از سه لایه Staging دادههای جدید استخراج شده از هر سامانه داده منبع جداگانه را ذخیره میکند. لایه یکپارچهسازی مجموعه دادههای پرداکنده را با تبدیل دادهها از لایه staging یکپارچه میکند. عمدتا دادههای تبدیل شده را در یک پایگاه داده data store عملیاتی (ODS) ذخیره میکند. در ادامه دادههای ادغام شده به پایگاه داده دیگری منتقل میشوند. در آن بانک اطلاعاتی دادهها به گروههای سلسله مراتبی تقسیم میشوند. در ادامه لایه سدترسی به کاربران در بازیابی دادهها کمک میکند.
ELT مخفف Extract-Load-Transformation بر خلاف رویکرد اول (ETL)، دادهها را مستقیما به انبار داده هدایت میکند. در رویکرد فوق تغییر ساختار دادهها با توجه به نیاز انجام و در جداول جدید ذخیره میشود.
فراخوانی دادهها از منابع
دادههای خام از منابع اطلاعاتی مختلفی جمعآوری شده و در لایه staging وارد میشوند. منبع داده خام میتواند یک سیستم ERP، پایگاه داده یک برنامه کاربردی یا یک فایل اکسل باشد. در اصل، یک انبار داده باید امکان دسترسی و پردازش انواع منابع داده اعم از ساختیافته، نیمه ساخت یافته یا غیر ساختیافته را داشته باشد. ایجاد یکنواختی بین دادههای وارد شده به انبار داده در دومین لایه یعنی یکپارچهسازی (integration) انجام میشود. بهطور مثال حذف رکوردهای تکراری یا نرمالسازی دادهها در این لایه انجام میشود. در لایه Presentation دادهها در دسترس کاربران قرار میگیرد. نرمافزارهای تهیه گزارش مانند Cognos ,Business Object ,SAP با دسترسی به این لایه میتوانند اطلاعات مورد نیاز مدیران و تحلیلگران را استخراج و در قالب گزارش در یک داشبورد ارائه کنند. لازم به توضیح است که در لایه Presentation میتوان چندین دادهگاه داشت.
انبار داده چرا استفاده میشود؟
انبار داده یک کپی از اطلاعاتی که سامانههای تبادل داده به مبادله آنها میپردازند را نگهداری میکند. با توجه به چنین قابلیتی انبار داده برای اهداف زیر استفاده میشود:
یکپارچهسازی دادهها از چند منبع در یک پایگاه داده و مدل دادهای واحد به گونهای که با یک موتور محاورهای بتوان دادهها را در یک ODS ارائه کرد.
نگهداری سابقه دادهای حتا زمانی که سامانههای تراکنش منبع قادر به ارائه این سرویس نیستند.
رفع مشکل قفل در سامانههای پردازش تراکنشی که به واسطه انجام محاورههای تحلیلی بزرگ اتفاق میافتد و باعث میشود مدت زمان انجام محاورهها در پایگاههای داده طولانی شوند.
یکپارچهسازی دادهها از سامانههای منبع چندگانه و توانایی مشاهده اطلاعات در بخشهای مختلف سازمان. رویکرد فوق به ویژه زمانی مهم میشود که قرار باشد چند سازمان با یکدیگر ادغام شوند.
ارائه بدون وقفه اطلاعات
ارائه یک مدل داده ستون مفرد برای دادهها فارغ از منبع داده
بازسازی دادهها به گونهای که برای مشتریان قابل درک باشد.
بازسازی دادهها به گونهای که اجرای محاورههای تحلیلی تاثیر منفی روی سامانههای عملیاتی نگذارد.
سادهسازی نوشتن محاورههای پشتیبان تصمیمگیری.
سازماندهی و ابهامزدایی دادههای بازاریابی.
روشهای طراحی
سه روش رایج برای طراحی انبارهای داده وجود دارد که به شرح زیر هستند:
طراحی پایین به بالا
در رویکرد طراحی پایین به بالا، انبار داده به شکل اولیه برای قابلیتهای گزارشدهی و تحلیلی برای پردازشهای خاص تجاری ساخته میشود. در ادامه این انبار داده را میتوان یکپارچه کرد تا یک انبار داده جامع به دست آید.
طراحی بالا به پایین
رویکرد طراحی بالا به پایین بر مبنای یک مدل داده سازمانی طراحی میشود. در این الگوی دادهای، دادههای اتمیک به دادههایی که بیشترین سطح از جزییات را شامل میشوند و قرار است در انبار دادهها ذخیره شوند اشاره دارند. دادههای ابعاددار باید شامل دادههای موردنیاز برای پردازشهای خاص تجاری یا بخشهای مشخصی از سازمان باشند.
طراحی ترکیبی
این مدل انبار دادهها بر مبنای معماری hub and spokes طراحی میشوند. سامانههای موروثی که انبارهای دادهای را تغذیه میکنند، عمدتا شامل مدیریت ابطه با مشتری و برنامهریزی منابع انسانی هستند که دادههای زیادی را تولید میکنند. برای یکپارچهسازی این انبارهای دادهای و تسهیل پردازش بار تبدیل استخراج، انبارهای داده در بیشتر موارد از انبارهای داده عملیاتی استفاده میکنند. برای کم کردن افزوندگی دادهها، سامانههای بزرگتر عمدتا دادهها را به شکل نرمالسازی شده ذخیرهسازی میکنند. در ادامه میتوان دادهگاهایی را برای گزارشگیریهای خاص بر مبنای این انبارهای دادهای ایجاد کرد. یک پایگاه داده ترکیبی به شکل 3NF نگهداری میشود تا افزونگی دادهها حذف شوند. البته به این نکته مهم دقت کنید که یک پایگاه داده رابطهای نرمال برای گزارشهای هوش تجاری که مدلسازی ابعادی در آن رایج است، گزینه مطلوبی نیست. دادهگاههای کوچک را میتوان از روی انبارهای دادهای منسجم ایجاد کرد و از دادههای فیلتر شده مشخص برای جداول واقعیت و ابعاد مورد نیاز استفاده کرد. انبار داده یک منبع مستقل اطلاعاتی ارائه میکند که بر مبنیا آن میتوان دادهگاهایی را ایجاد کرد و طیف متنوعی از اطلاعات تجاری را ارائه کرد. معماری ترکیبی امکان جایگزینی مخزن مدیریت داده اصلی را با انبار داده ارائه میکند که در آن میتوان اطلاعات عملیاتی و نه ایستا را ذخیرهسازی کرد. مولفههای مدلسازی data vault از معماری hub and spokes پیروی میکنند. این سکب مدلسازی یک طراحی ترکیبی است که شامل کارآمدترین روالهای شکلنرماسازی سطح سه و شمای ستارهای است. البته دقت کنید که مدل data vault یک شکل واقعی از نرمالسازی سطح سوم را ارائه نمیکند، زیرا برخی از قوانین را نقض میکند. اما معماری بالا به پایین با طراحی پایین به بالا به شمار میرود. مدل data vault به گونهای تنظیم میشود که به شکل روشن یک انبار داده باشد. این پیکربندی را نباید بهطور خاص با هدف افزایش سطح دسترسی کاربران توصیف کرد، زیرا هنگامی که پیادهسازی میشود کاربردش در برنامهریزیهای تجاری است.
از ویژگیهای شاخص انبار دادهها میتوان به موضوع-محور، یکپارچگی، زمان متغیر، غیر فرار و جمعبندی دادهها در سطوح مختلف اشاره کرد.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟