GDA笔记:数据的生命周期

关于数据生命周期的理论,有很多不同的版本。每个组织或者机构都可以根据自身业务或发展的需要,科学地下定义。

Google Data Analytics的定义是:plan计划、capture获取、manage管理、analyze分析、archive归档和destroy销毁。

学习到这一段时,感觉兜了一圈,又回到了自己大学的major。

计划,实际上发生在开始分析项目之前。在规划期间,企业决定它需要什么样的数据、如何在其整个生命周期中对其进行管理、谁将负责它以及最佳产出。例如,假设一家电力供应商想要深入了解如何为人们节省能源。在规划阶段,他们可能会决定获取客户每年使用多少电量、正在为哪些类型的建筑物供电以及正在为其中的哪些类型的设备供电的信息。电力公司还将决定哪些团队成员将负责收集、存储和共享这些数据。所有这些都发生在规划期间,它有助于设置项目的其余部分。

捕获数据,是从各种不同来源收集数据并将其带入组织。一种常见的是从外部资源获取数据。例如,如果你正在对天气模式进行数据分析,可能会从国家气候数据中心等公开可用的数据集中获取数据;另一种获取数据的方法是从公司自己的文档和文件中获取数据,这些文档和文件通常存储在数据库中。数据库是存储在计算机系统中的数据集合。以我们的电力供应商为例,该企业可能会在其拥有的数据库中衡量其客户之间的数据使用情况。维护客户信息数据库时,确保数据完整性、可信度和隐私都是重要的问题。

在这里谈论的管理是如何关心我们的数据、数据的存储方式和存储位置、用于确保数据安全的工具以及为确保数据得到正确维护而采取的措施。这个阶段对数据清理非常重要。

接下来是分析数据。这就是数据分析师真正闪耀的地方。在此阶段,数据用于解决问题、做出重大决策和支持业务目标。例如,我们电力公司的目标之一可能是找到帮助客户节约能源的方法。

存档意味着将数据存储在仍然可用但可能不会再次使用的地方。在分析过程中,分析师处理大量数据。你能想象如果我们必须对所有可用的数据进行分类,即使它不再有用并且与我们的工作相关吗?将其存档比保留它更有意义。

最后,数据生命周期的最后一步,销毁阶段。回到电力供应商示例。他们会将数据存储在多个硬盘上。为了销毁它,该公司将使用安全的数据擦除软件。如果有任何纸质文件,它们也会被粉碎。这对于保护公司的私人信息以及有关其客户的私人数据非常重要。