笔记:数据清理验证清单

数据验证是一个确认数据清理工作执行良好、结果数据准确可靠的过程。没有验证,就不能确定你的见解在数据驱动的决策中是否可以被信赖。

每个项目都有独特的组织和数据需求,所以有必要运行特有的清单进行验证。但无论项目和工具为何,均可参考以下清单。

1、确保发现了最常见的问题并加以纠正,包括:
1) 错误来源:是否使用了正确的工具和函数来查找数据集中的错误来源?
2) 空数据:是否使用条件格式和过滤器搜索null?
3) 拼写错误的单词:找到所有的拼写错误了吗?
4) 数字输入错误:是否再次检查的数字数据是否输入正确?
5) 额外的空格和字符:是否使用TRIM功能删除了任何额外的空格或字符?
6) 重复:是否使用删除重复功能或在SQL中删除电子表格中的重复?
7) 不匹配的数据类型:是否检查了数字、日期和字符串数据的类型转换正确?
8) 凌乱(不一致)的字符串:是否确保所有的字符串都是一致且有意义的?
9) 凌乱的(不一致的)日期格式:的数据集的日期格式一致吗?
10) 误导变量标签(列):的列的名字有意义吗?
11) 删节数据:是否检查过截断或缺失的数据需要更正?
12) 业务逻辑:是否根据对业务的了解,检查了数据的意义?

2、一旦完成了数据清理任务,最好检查一下项目的目标,并确认数据仍然与目标一致:
1) Confirm the business problem确认业务问题
2) Confirm the goal of the project确定项目目标
3) 验证数据可以解决问题,并与目标一致
当接收到更多的数据或对项目目标有了更好的理解时,可能需要重新回顾这些步骤的一部分或全部。这是一个贯穿于整个项目的持续过程。

另,清理过程中的变更日志非常非常重要。

跬步

大概这世间的许多道理,都是相通的。

荀子在劝学里说,不积跬步无以至千里,不积小流无以成江海。今天做事时,脑子里突然冒出这段话来,于彼时的情形,恰如其分,毫厘不爽。

看似简单的小细节,项目开始之初就得严格地定义和执行。执行好了,丝滑得感觉不到它的存在;执行不好,不仅返工浪费时间,还容易出现混乱和错误。更重要的是,极有可能打击自己和团队对数据的信心。

从一开始就要保持数据的井井有条!制定数据生命周期SOP流程:

1、命名规则:内容_日期_版本号v01
2、文件夹规则,并分ongoing和archive
3、存放地有效性
4、修改权限问题
5、align元数据文档和数据层级架构
待续……

感觉突然蹦出的想法有时候就像潜意识抛出的锦囊,值得停下来仔细思考和记录。

另外,小时候背的书还是有用的啊,一不小心就是一个哲理的chunk。

艾灸使人发困,具体的条目明天再想吧。

读书的角度

前两天微信和微博的首页铺满了对稻盛和夫的追念。在繁杂的声音里发现不少人被用六项精进管理过,这是件有些值得思考的事情了。

在工作的第二年,接过项目管理的工作后,不仅需要面对网站前台页面和后台功能等诸多事的管理,还有两位同事也划归到我的项目组。人生中第一次管理别人,些许慌乱,尤其知道组员之一的年纪和经历远胜自己时。

急忙找方法论的时候,貌似在公司附近,离黄陂南路地铁站不远的某个书店里看到稻盛和夫的书。记不清具体哪本,却记得对自己影响颇深。然而后来在团队管理上实践的却是SOPKPI以及更往后的OKR之类。

大概是心底里认同道德只能用来约束自己,而从稻书里学到的类似于反省和鞭策,归属于自我管理范畴。人的型态那么多元,大家聚在一起不过是工作,妄图参与别个的思想建设,似乎有些越矩了。

曾经怀疑过“付出不亚于任何人的努力”这一条。而今回头看,却还是对的。

自己的能力和修炼还是在于自个的努力。魑魅魍魉鸡犬升天的事再多,终归不过是一路嘈杂的灰尘,总会过去。

一直没学好谦虚这件事,须得好好反省。

今天确定了夏天最热时候养活的一叶莲就是荇菜,心喜若花。

盛夏延绵至今的白羽小花,仿佛带着两千多年前《关雎》里河洲上氤氲的水气,把这临街的斗室变得阔远而美好。

Mark一下:一叶莲很好养,空调房多散射光,勤换水+小肥。一叶的花苞开完,会自然分化出更多叶带花苞,花苞出即剪断,又是新一叶莲。

陌生的朋友

为着企业邮箱和域名解析的事,下午和晚上都叨扰了provider若干次。

电话那头快节奏的声音,不由得让人想起十多年前。那会刚毕业不久,在一家以公关业务为主的广告公司,于传统业务之外独自撑起一个互动营销的部门,给Gerber、Oral-B、黛安芬……做线上互动的活动。从活动流程到网站策划、设计、前后台创建到项目管理,除了外部的网站设计和编程vendor之外,所有的事情都是自己一个人来。想起来的是:那个以一当十的高压时刻,也有个一直在电话里陪伴着的服务器域名provider,也是有求必应效率极高,在活动爆火远超预期时还站在我的角度给出技术相关的有效建议。

如今再回想,思路清晰做事敏捷,份内事专业高效,还能额外给一二建议的vendor,委实可遇不可求啊。未曾谋面,却如朋友一般。

见贤思齐,工作或生活里,也要做别人陌生的朋友呵。

说到朋友,疫情期间楼里跑外勤的志愿者小姑娘回了老家,大概上海真的让她无所适从了吧。第二个主动帮忙发放防疫大礼包的邻居也搬走了……可能这就是庄子所说的,相濡以沫,不如相忘于江湖吧。

愿江湖各位均安好。

热天

这个夏天晚上开空调的时间,大概是往年的若干倍了。以往跟人闲聊时,说到夏天的热,总是玩笑说经历了武汉顶楼没有空调的那几年,再没有觉得太热的夏天了。

果然人生海海,未知还在前方啊。

每每热到不想出门,看到炎阳下花开正艳的三角梅太阳花,暴晒下不仅努力地活着,还开出绚烂的花。即使吃力如月季蓝盆花,哪怕只能开出小小的几朵,也在尽力绽放。身为它们的主人又有什么理由不努力的呢?

窗台上的一叶莲,每天一到三朵,娇柔地舒展开来,清雅纤美。可惜现在的手机,没法拍出它的美。

说到手机的拍照功能,被惯性思维害惨的人生教训啊。从iPhone一路换上来,谁曾想13的功能反倒不如11呢。

有时候感觉自己需要一段去往远方的旅行来重启当下的生活,却囿于疫情铺天盖地的影响,只能作罢。宫崎骏若干年前的某部电影,有种奇怪的现实感了。

最近瑜伽颇有心得,大概是又更深一层地理解了呼吸的缘故。无论动作难度如何,保持呼吸的节奏,并用呼吸检查和帮助动作一点点地加强——简单又有效。在一呼一吸之间保持,又在一呼一吸之间进步。

联想到另一个领域,大概可以用同样的思路去解决冒出来的急躁。

开始时庆幸自己英文阅读的功底还好,与另一边国内的流程对照着来,框架和细节都饱满又能相辅相成地同时推进两个项目,事倍功半的感觉。当节奏越来越快,需要review的越来越多的时候,心底里忍不住着急地想,要是能够像母语一样地使用英语,应该可以轻松好多。

如同瑜伽的练习一样,期望高阶体式是好的,但必须得根据自己的水平,投入时间在一呼一吸里渐渐提升。

奢望不成,幻想也不成。

书到用时方恨少倒是真的,碎片时间多看书,不要满足于过程,成chunk才是重点。