در ادامه بحث تبدیل دادهها، باید به نقش تبار داده نیز توجه کرد. تبار یا اصل و نسب داده، به معنای مسیری است که داده در چرخه حیات خود در طول سفر در فرایند ETL طی کرده، جابجاییهایی که انجام داده، جداول و مجموعه دادههایی که ایجاد، حذف یا بازیابی شدهاند و موارد استفاده دادهها است. تبار نمایش مصوری از منشا دادهها (جایی که ایجاد میشوند، تغییرات و بارگذاری اولیه آنها) است و باید به این سوالات پاسخ دهد: چرا این مجموعه داده به وجود آمده است؟ و این مجموعه داده از کجا آمده است؟
چرا تبار داده مفید است؟
برای اینکه داده بینشی خلق کند، هنگام حرکت در دریاچه داده، با سایر دادهها تعامل میکند یا با آنها ترکیب میشود. اما این ریسک وجود دارد که فراداده (اطلاعاتی درباره داده و طبقهبندی آنها) در طول سفر داده از بین برود. میتوان در قالب عملیاتی خودکار یا با دخالت عامل انسانی میزان کیفیت دادههای منبع داده را بررسی نمود. منابع دادهای وجود دارند که بهطور بالقوه اعتمادتان به آنها کمتر است. از آنجا که دادههای منابع مختلف با یکدیگر ترکیب میشوند، گاهی ممکن است اطلاعات از دست بروند. بنابراین بهتر است گاهی اوقات برای حفظ صحت دادهها از ترکیب کردن دادههای منابع مختلف خودداری کنیم.
علاوه بر کیفیت داده، سیگنال دیگری که منبع داده به ما میدهد، حساسیت داده است. اطلاعات سرشماری و شماره تلفنهایی که اخیرا بهروزرسانی شدهاند نسبت به دادههای حذف شده از یک صفحه عمومی وب، دارای سطح خاص و متفاوتی از حساسیت هستند.
بنابراین حساسیت و کیفیت داده و سایر اطلاعات بالقوهای که از منبع داده به دست میآید باید تا انتهای مسیر جاری باشند.
فراداده مرتبط با منبع داده (مانند حساسیت، کیفیت، داشتن اطلاعات شناسایی شخصی و غیره) در تصمیم ترکیب دادهها یا اعطای حق دسترسی به دادهها موثر هستند. وقتی دادهها را ترکیب میکنید باید بدانید که داده از کجا آمدهاند. هدف کسبوکاری برای دادهها از اهمیت ویژهای برخوردار است زیرا محصولات دادهای ایجاد شده باید در دستیابی به آن هدف مفید واقع شوند. اگر هدف کسبوکاری به سطح مشخصی از دقت زمانی نیاز داشته باشد، باید با تبارشناسی مطمئن شوید که ریزدانگی دادهها در جایی از فرایند تغییر نکرده و به اصطلاح درشتتر نشوند. بنابراین تبارشناسی برای داشتن استراتژی کارآمد حکمرانی داده بسیار مهم است.
چگونه تبار دادهها را جمعآوری کنیم؟
معمولا انبار داده یا کاتالوگ داده این امکان را دارد که از زمان استخراج داده تا زمان ایجاد محصول داده محور یا داشبوردها و مدلها، تبار داده را به ازای هر عملی که روی آن انجام میشود نگهداری کند. ولی این امر رایج نیست و نقاط کور بسیاری وجود خواهند داشت. باید اطلاعات مورد نیاز خود را یا از محصولات جانبی یا بهصورت دستی اخذ کنید تا بتوانید نقاط کور را پوشش دهید. وقتی این اطلاعات را در اختیار داشته باشید میتوانید بسته به میزان مورد اعتماد بودنشان، از آنها برای اهداف حکمرانی استفاده کنید.
همزمان با رشد دادهها (چون معمولا کسبوکارهای موفق، دادهها را با نرخ تصاعدی جمعآوری میکنند) بسیار مهم است که تبارشناسی نه بهصورت دستی و توسط ناظران بلکه بهصورت خودکار انجام شود. خودکارسازی اهمیت بسزایی دارد زیرا همانطور که در ادامه فصل خواهیم دید، تبار داده ممکن است تفاوتی عمیق در حکمرانی داده ایجاد کند. وجود گلوگاههای ناشی از عملیات انسانی، توانایی سازمان را در دسترسپذیر کردن دادهها از بین
خواهد برد. همچنین شکست زنجیره تبار داده (معمولا توسط عامل انسانی)، به دلیل دشوار شدن اعتماد به دادهها، تاثیر عمیقی بر محصولات داده محور دارد.
راه دیگری برای جمعآوری یا ایجاد تبار دادهها، اتصال به لاگ API در انبار داده است. انتظار میرود که این لاگها شامل تمامی اتفاقاتی باشند که توسط SQL یا سایر زبانهای برنامهنویسی مانند R و Python برای داده ثبت شدهاند. اگر لاگ خوبی در اختیار داشته باشید، به راحتی میتوانید نمودار تبار دادهها را رسم کنید. به عنوان مثال، بهصورت معکوس از دستورات ایجاد جدولها، به نیازمندیهای ایجاد جدول برسید. این کار به اندازه ثبت بهموقع تبار دادهها مؤثر نیست، زیرا مستلزم پسنگری لاگها و پردازش دستهای است، اما با این فرض که روی تبار دادهها در انبار داده متمرکز میشوید، بسیار مفید است (البته این فرض همیشه درست نیست).
انواع تبار دادهها
هنگامی که در مورد کاربرد تبار دادهها صحبت میکنیم، سطح و ریزدانگی آن بسیار مهم است. معمولا باید تبار را در سطح جدول/فایل داشته باشیم. مثلا بگوییم این جدول حاصل فلان فرایند و ترکیب آن با جدولی دیگر است.
در شکل 6-1 مثالی خیلی ساده را از ترکیب دو جدول و ایجاد جدول سوم با استفاده از SQL مشاهده میکنیم.
ریزدانگی در سطح ستونها/فیلدها کاربردیتر است. بدین شکل که جدول جدید شامل ستونهای مشخص از یک جدول و ستونهای دیگری از جدولی دیگر است. وقتی که در سطح ستون یا فیلد صحبت میکنیم، انواع داده را نیز در نظر میگیریم. در دادههای ساختاریافته (یعنی جدولی) هر ستون اصولا دارای یک نوع داده است. برای مثال رهگیری اطلاعات شناسایی شخصی را در نظر میگیریم. اگر در منبع داده مشخص شود که چه ستونهایی حاوی اطلاعات شناسایی شخصی هستند، آن را در طول انتقال دادهها و ایجاد جداول جدید رهگیری کرده و به
راحتی به این سوال پاسخ میدهیم که چه جداولی حاوی این اطلاعات هستند. در شکل 6-2، دو ستون از جدول الف با دو ستون از جدول ب ادغام شده و جدول ج را میسازند. اگر این ستونها در مبدا با عنوان حاوی اطلاعات شناسایی شخصی، شناخته شده باشند، میتوانیم بگوییم که جدول ج نیز حاوی اطلاعات شناسایی شخصی است.
تبار در سطح ردیفها، امکان ارائه اطلاعات مرتبط با تراکنشها و در سطح مجموعه دادهها، امکان ارائه اطلاعات با ریزدانگی بالاتر را در مورد منابع داده ایجاد میکند.
کتابهای مرتبط
راهنمای جامع حکمرانی داده
320,000 توماننام مولف |
آنیتا کیبونگوچی گرنت, اورن اریورک, اوری گیلاد, جسی آشداون, والیپا لاکشمان |
---|---|
نام مترجم |
امین هاشمی, بهزاد سجادی |
شابک |
978-622-5923-47-8 |
تعداد صفحه |
272 |
سال انتشار |
1403 |
نوبت چاپ |
اول |
قطع کتاب |
وزیری |
نوع جلد |
شومیز |