بریده‌های کتاب

تبار داده

در ادامه بحث تبدیل داده‏ها، باید به نقش تبار داده نیز توجه کرد. تبار یا اصل و نسب داده، به معنای مسیری است که داده در چرخه حیات خود در طول سفر در فرایند ETL طی کرده، جابجایی‏هایی که انجام داده، جداول و مجموعه داده‏هایی که ایجاد، حذف یا بازیابی شده‎اند و موارد استفاده داده‏ها است. تبار نمایش مصوری از منشا داده‏ها (جایی که ایجاد می‏شوند، تغییرات و بارگذاری اولیه آن‏ها) است و باید به این سوالات پاسخ دهد: چرا این مجموعه داده به وجود آمده است؟ و این مجموعه داده از کجا آمده است؟

چرا تبار داده مفید است؟

برای اینکه داده بینشی خلق کند، هنگام حرکت در دریاچه داده، با سایر داده‏ها تعامل می‏کند یا با آن‏ها ترکیب می‏شود. اما این ریسک وجود دارد که فراداده (اطلاعاتی درباره داده و طبقه‎بندی آنها) در طول سفر داده از بین برود. می‏توان در قالب عملیاتی خودکار یا با دخالت عامل انسانی میزان کیفیت داده‏های منبع داده را بررسی نمود. منابع داده‏ای وجود دارند که به‎طور بالقوه اعتمادتان به آن‏ها کمتر است. از آن‏جا که داده‏های منابع مختلف با یکدیگر ترکیب می‏شوند، گاهی ممکن است اطلاعات از دست بروند. بنابراین بهتر است گاهی اوقات برای حفظ صحت داده‏ها از ترکیب کردن داده‏های منابع مختلف خودداری کنیم.
علاوه بر کیفیت داده، سیگنال دیگری که منبع داده به ما می‏دهد، حساسیت داده است. اطلاعات سرشماری و شماره تلفن‏هایی که اخیرا به‏روزرسانی شده‏اند نسبت به داده‏های حذف شده از یک صفحه عمومی وب، دارای سطح خاص و متفاوتی از حساسیت هستند.
بنابراین حساسیت و کیفیت داده و سایر اطلاعات بالقوه‏ای که از منبع داده به دست ‏می‏آید باید تا انتهای مسیر جاری باشند.
فراداده مرتبط با منبع داده (مانند حساسیت، کیفیت، داشتن اطلاعات شناسایی شخصی و غیره) در تصمیم ترکیب داده‏ها یا اعطای حق دسترسی به داده‏ها موثر هستند. وقتی داده‏ها را ترکیب می‏کنید باید بدانید که داده از کجا آمده‎اند. هدف کسب‏وکاری برای داده‏ها از اهمیت ویژه‏ای برخوردار است زیرا محصولات داده‏ای ایجاد شده باید در دستیابی به آن هدف مفید واقع شوند. اگر هدف کسب‏وکاری به سطح مشخصی از دقت زمانی نیاز داشته باشد، باید با تبارشناسی مطمئن شوید که ریزدانگی داده‏ها در جایی از فرایند تغییر نکرده و به اصطلاح درشت‎تر نشوند. بنابراین تبارشناسی برای داشتن استراتژی کارآمد حکمرانی داده بسیار مهم است.

چگونه تبار داده‌‏ها را جمع‌‏آوری کنیم؟

معمولا انبار داده یا کاتالوگ داده این امکان را دارد که از زمان استخراج داده تا زمان ایجاد محصول داده محور یا داشبوردها و مدل‏ها، تبار داده‏ را به ازای هر عملی که روی آن انجام می‏شود نگهداری کند. ولی این امر رایج نیست و نقاط کور بسیاری وجود خواهند داشت. باید اطلاعات مورد نیاز خود را یا از محصولات جانبی یا به‌صورت دستی اخذ کنید تا بتوانید نقاط کور را پوشش دهید. وقتی این اطلاعات را در اختیار داشته باشید می‏توانید بسته به میزان مورد اعتماد بودنشان، از آن‌ها برای اهداف حکمرانی استفاده کنید.
همزمان با رشد داده‏ها (چون معمولا کسب‏وکارهای موفق، داده‏ها را با نرخ تصاعدی جمع‏آوری می‏کنند) بسیار مهم است که تبارشناسی نه به‌صورت دستی و توسط ناظران بلکه به‌صورت خودکار انجام شود. خودکارسازی اهمیت بسزایی دارد زیرا همانطور که در ادامه فصل خواهیم دید، تبار داده ممکن است تفاوتی عمیق در حکمرانی داده ایجاد کند. وجود گلوگاه‏های ناشی از عملیات انسانی، توانایی سازمان را در دسترس‏پذیر کردن داده‏ها از بین

تبار داده

خواهد برد. همچنین شکست زنجیره تبار داده (معمولا توسط عامل انسانی)، به دلیل دشوار شدن اعتماد به داده‎ها، تاثیر عمیقی بر محصولات داده محور دارد.
راه دیگری برای جمع‏آوری یا ایجاد تبار داده‏ها، اتصال به لاگ API در انبار داده است. انتظار می‏رود که این لاگ‌ها شامل تمامی اتفاقاتی باشند که توسط SQL یا سایر زبان‏های برنامه‏نویسی مانند R و Python برای داده ثبت شده‎اند. اگر لاگ خوبی در اختیار داشته باشید، به راحتی می‏توانید نمودار تبار داده‏ها را رسم کنید. به عنوان مثال، به‌صورت معکوس از دستورات ایجاد جدول‏ها، به نیازمندی‏های ایجاد جدول برسید. این کار به اندازه ثبت به‌موقع تبار داده‏ها مؤثر نیست، زیرا مستلزم پس‎نگری لاگ‌ها و پردازش دسته‌ای است، اما با این فرض که روی تبار داده‏ها در انبار داده متمرکز می‏شوید، بسیار مفید است (البته این فرض همیشه درست نیست).

انواع تبار داده‌‏ها

هنگامی که در مورد کاربرد تبار داده‏ها صحبت می‏کنیم، سطح و ریزدانگی آن بسیار مهم است. معمولا باید تبار را در سطح جدول/فایل داشته باشیم. مثلا بگوییم این جدول حاصل فلان فرایند و ترکیب آن با جدولی دیگر است.
در شکل 6-1 مثالی خیلی ساده را از ترکیب دو جدول و ایجاد جدول سوم با استفاده از SQL مشاهده می‏کنیم.

ریزدانگی در سطح ستون‏ها/فیلدها کاربردی‌تر است. بدین شکل که  جدول جدید شامل ستون‏های مشخص از یک جدول و ستون‏های دیگری از جدولی دیگر است. وقتی که در سطح ستون یا فیلد صحبت می‏کنیم، انواع داده را نیز در نظر می‏گیریم. در داده‏های ساختاریافته (یعنی جدولی) هر ستون اصولا دارای یک نوع داده است. برای مثال رهگیری اطلاعات شناسایی شخصی را در نظر می‏گیریم. اگر در منبع داده مشخص شود که چه ستون‏هایی حاوی اطلاعات شناسایی شخصی هستند، آن را در طول انتقال داده‏ها و ایجاد جداول جدید رهگیری کرده و به

تبار داده

راحتی به این سوال پاسخ می‏دهیم که چه جداولی حاوی این اطلاعات هستند. در شکل 6-2، دو ستون از جدول الف با دو ستون از جدول ب ادغام شده و جدول ج را می‏سازند. اگر این ستو‏ن‏ها در مبدا با عنوان حاوی اطلاعات شناسایی شخصی، شناخته شده باشند، می‏توانیم بگوییم که جدول ج نیز حاوی اطلاعات شناسایی شخصی است.
تبار در سطح ردیف‏ها، امکان ارائه اطلاعات مرتبط با تراکنش‏ها و در سطح مجموعه داده‎ها، امکان ارائه اطلاعات با ریزدانگی بالاتر را در مورد منابع داده ایجاد می‏کند.

برای ادامه، به کتاب مراجعه کنید.

کتاب‌های مرتبط

راهنمای جامع حکمرانی داده

320,000 تومان
نام مولف

آنیتا کیبونگوچی گرنت, اورن اریورک, اوری گیلاد, جسی آشداون, والیپا لاکشمان

نام مترجم

امین هاشمی, بهزاد سجادی

شابک

978-622-5923-47-8

تعداد صفحه

272

سال انتشار

1403

نوبت چاپ

اول

قطع کتاب

وزیری

نوع جلد

شومیز

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *