笔记:数据清理验证清单

数据验证是一个确认数据清理工作执行良好、结果数据准确可靠的过程。没有验证,就不能确定你的见解在数据驱动的决策中是否可以被信赖。

每个项目都有独特的组织和数据需求,所以有必要运行特有的清单进行验证。但无论项目和工具为何,均可参考以下清单。

1、确保发现了最常见的问题并加以纠正,包括:
1) 错误来源:是否使用了正确的工具和函数来查找数据集中的错误来源?
2) 空数据:是否使用条件格式和过滤器搜索null?
3) 拼写错误的单词:找到所有的拼写错误了吗?
4) 数字输入错误:是否再次检查的数字数据是否输入正确?
5) 额外的空格和字符:是否使用TRIM功能删除了任何额外的空格或字符?
6) 重复:是否使用删除重复功能或在SQL中删除电子表格中的重复?
7) 不匹配的数据类型:是否检查了数字、日期和字符串数据的类型转换正确?
8) 凌乱(不一致)的字符串:是否确保所有的字符串都是一致且有意义的?
9) 凌乱的(不一致的)日期格式:的数据集的日期格式一致吗?
10) 误导变量标签(列):的列的名字有意义吗?
11) 删节数据:是否检查过截断或缺失的数据需要更正?
12) 业务逻辑:是否根据对业务的了解,检查了数据的意义?

2、一旦完成了数据清理任务,最好检查一下项目的目标,并确认数据仍然与目标一致:
1) Confirm the business problem确认业务问题
2) Confirm the goal of the project确定项目目标
3) 验证数据可以解决问题,并与目标一致
当接收到更多的数据或对项目目标有了更好的理解时,可能需要重新回顾这些步骤的一部分或全部。这是一个贯穿于整个项目的持续过程。

另,清理过程中的变更日志非常非常重要。

《统计学》笔记

1.1 什么是统计学
用以搜集数据、分析数据和由数据得出结论的一组概念、原则和方法。
4个要素:问题、数据、方法、结论
(定义——》变量——》分析——》建议)

描述统计、
推断统计,参数估计——》假设检验

数据的欺骗性,幽灵数据

对数据要有敬畏之心。

SPSS、EXCEL

1.2什么是数据
变量的取值即为数据

计量尺度:
定量变量——》数值型数据
分类变量、顺序变量——》定性变量/数据

时间:
截面数据、时序数据

2.1 抽样与调查知识点
why省时、省钱;不能采用全面调查,如破坏性试验;设计科学,结果比全面调查可靠

什么是好的抽样?符合研究目的;能从样本计算出有效的估计值及其变动;可实践性

样本量大小与好坏无关,作用是决定统计分析结果的误差。
样本结构也无关,随机样本结构往往和总体不一致。
样本指标与其他调查的数值一致,只能说明这个样本不差,而不能证明它是一个好样本。

概率抽样方式:简单、分层、pps、整群、系统、多阶、多相

概率抽样基本准则:单元是从总体中按一定的概率随机抽取的。

随机:调查总体中的每个单元都以非零的概率入样。
不等于随意
随意等于随机的条件:
1)总体元素一致
2)总体自动随机,如天文、物理、化学
社会科学领域往往不满足

等概率一定是随机的,随机不局限于等概率。

How随机:
1)一定要通过随机化程序实现
怎么判断?
1)多次抽样,频率/变化异常
2)一次性,抽样程序是否满足随机化

非概率抽样是用主观的方法从总体中抽选单元,方式:方便、判断、配额、自愿、滚雪球;
优点:快速简便、费用低、不需要抽样框;
缺点:对总体的假定一般不成立不能推断总体、不能得到可靠的估计值及误差估计值、样本一般有倾向性与偏差。
应用:
1)形成一种想法
2)设计开发概率抽样调查的初始步骤
3)解释概率抽样的调查结果
4)抽选参加访谈的个人

误差(抽样/非抽样)
非抽样误差:抽样框误差、回答误差、无回答误差(没有获得该单元的数据)
无回答大于30%的调查结果一般是不可信的。(无回答率;回答与无回答的样本差异)
降低无回答的方法:
1、改进调查组织(匿名、激励、选择合适的时间)
2、多次访问(3次还低于85%,继续)
3、替换样本单元(替换规则须在调查实施之前确定)
4、对敏感性问题采用技术展开

你只是看起来很努力

周日,到大众书局翻书。

一杯咖啡,捡三两本顺眼的新书,不知不觉地过一个下午。没有明确的主题和目的,却总是收获颇丰。

《你只是看起来很努力》这本书,有些句子说出了自己心底的话。

“行动这件事,从来不需要等到什么好天气好状态,此时此刻就是永远,此时此刻就是一切。”科目三考试前训练时,心里一直在跟自己讲着后半句。

“不以改变结果为目的的批判,就是无效的批判。不提供解决方案的责备,就是无用的责备。”——要反省的点。

“再好的朋友,也抵不过你无底线的直白,讲话的时候请记得拐个弯儿。别把自己的口无遮拦当作大气,那只是幼稚而已。”——要警醒的毛病。

读书笔记 ·《我决定简单地生活》

从断离舍到极简主义【佐佐木典士】

身边多余的物品愈少,人生愈幸福。因为我们已经不需要物品填满我们的人生。

协和效应/沉没成本:2001年诺贝尔经济学奖获得者之一的美国经济学家斯蒂格利茨说明什么是沉没成本:“假如你花7美元买了一张电影票,你怀疑这个电影是否值7美元。看了半个小时后,你最担心的事被证实了:影片糟透了。你应该离开影院吗?在做这个决定时,你应当忽视那7美元。它是沉没成本,无论你离开影院与否,钱都不会再收回。”

不要因为便宜而购买,也不要因为免费而收下。

欲望带来的时间浪费。——减少购物时间——家务时间减少(因为居家环境的简约)

果酱定律?

让打扫成为习惯。

唤醒物品的归巢本能。

减少代办事项。家务犹如沉默的代办事项,指令太多容易死机。

认真对待重要的事情。

 

《刻意练习》笔记

《刻意练习 PEAK Secrets from New Science of Expertise》
安德斯 埃里克森 Anders Ericsson
罗伯特 普尔 Robert Pool
王正林 译

有目的的练习 VS 天真的练习

天真的练习,基本上知识反复地做某件事情,并指望只靠那种反复,就能提高表现和水平。

有目的的练习的四个特点:

1、具有定义明确的特定目标
把目标分解,并制定一个计划。要达到…为什么…怎么做到…
2、有目的的练习是专注的
3、包含反馈
不论你在努力做什么事情,都需要反馈来准确辨别你在哪些方面还有不足,以及怎么会存在这些不足
4、需要走出舒适区*
如果你从来不迫使自己走出舒适区,便永远无法进步。

遇到瓶颈怎么办?
试着做不同的事情,而非更难的事情。
并非达到极限,而是动力不足。想办法保持你的动机

继续阅读“《刻意练习》笔记”