Category: 读万卷书

A Small Discovery

I have been collecting some information about Yu Yuan (Yu Garden) recently.

By chance, I discovered a painting of the Nine-Zigzag Bridge and the Mid-Lake Pavilion by a British female artist from 1924 (102 years ago).

It is a tragic coincidence that right after this artwork was finished, a fire broke out, devastating the wooden bridge and damaging the tea house. This painting may have captured the final view of the original structures before they were lost to the flames.

What a tangible piece of history!

2026-05-21
Paradoxes

阳历新年到来的前后，几乎每个知晓我2023new year resolution的人都在问今年的resolution是什么。一遍又一遍地解释说个人的新年跟着中国农历年来啊。

不是没想过切换到阳历年，毕竟会问的，要么是类似mentor的老师们，要么是关心你成长的人，不太想给他们“不积极主动”的印象。但作为一个打工人，无论何种形式，阳历年前后都是工作强度极大的时间段。而个人一年的梳理总结和展望，也需要沉着冷静的思考，耗费的大脑运动需要一段其他schedule相对不那么饱和的时间。所以，还是按照农历年的节奏来吧。

这一年感受最大的，莫过于paradox。以前说到悖论，仿佛它是一个难题，一个两难的鸿沟，现在的体会则是：它是篱笆杆杆，是攀缘绳，是让藤蔓向上生长壮大的支撑。（更多…）

2024-01-18
D2C延伸开去

D2C有很多层面，目前沟通到的有：品牌、产品、渠道和营销策略。

数字原生品牌Digitally native vertical brand是彻底的D2C。
1）品牌和产品、客户体验打造的闭环：倾听顾客的声音，传递品牌信息，让人产生共鸣。
2）第一方数据拥有者：每一个触点都在收集数据。
3）订阅模式最大化客户终身价值

D2C给legacy品牌带来的是以客户为中心的Omni channel角度。
1）基于数据的多渠道一体化
2）以客户为中心，激发信任
3）从4P4C的竞争模型到卡恩的BLEF模型

为了不成为apocalypse的一部分，必须在每一个方面都足够优秀，但要赢得市场领导者地位，必须在其中一个方面做到最好。

COVID改变了“足够好”的定义，并加剧了它的动态化。

从电商的角度看，D2c的好处在：

1.完全可控的营销策略：对营销策略和客户体验有更大的控制权。可以更充分了解实际目标受众，培养与消费者的关系，并为客户提供价值。这让品牌更容易实施有效的营销策略，如推荐计划和忠诚计划，吸引并留住现有客户，并帮助客户更好地识别和参与品牌。

2.提高客户忠诚度和参与度，订阅与互动模式

3.降低对零售合作伙伴的依赖
随着亚马逊(Amazon)等平台公司在在线零售行业占据主导地位，完全依赖零售商的制造商必然会面临利润率的压力。由于不断依赖零售商进行销售，制造商会面临输给竞争对手的风险，因为竞争对手在零售商的网站上销售类似的产品。

4.拓宽产品种类的机会，线上容量足够大+足够了解目标消费者的需求

5.获得不同地理位置的客户：全球视角

6.质量反馈与产品迭代，目标与预期管理。

2023-04-24
笔记：数据清理验证清单

数据验证是一个确认数据清理工作执行良好、结果数据准确可靠的过程。没有验证，就不能确定你的见解在数据驱动的决策中是否可以被信赖。

每个项目都有独特的组织和数据需求，所以有必要运行特有的清单进行验证。但无论项目和工具为何，均可参考以下清单。

1、确保发现了最常见的问题并加以纠正，包括：
1) 错误来源：是否使用了正确的工具和函数来查找数据集中的错误来源？
2) 空数据：是否使用条件格式和过滤器搜索null？
3) 拼写错误的单词：找到所有的拼写错误了吗？
4) 数字输入错误：是否再次检查的数字数据是否输入正确？
5) 额外的空格和字符：是否使用TRIM功能删除了任何额外的空格或字符？
6) 重复：是否使用删除重复功能或在SQL中删除电子表格中的重复？
7) 不匹配的数据类型：是否检查了数字、日期和字符串数据的类型转换正确？
8) 凌乱（不一致）的字符串：是否确保所有的字符串都是一致且有意义的？
9) 凌乱的（不一致的）日期格式：的数据集的日期格式一致吗？
10) 误导变量标签（列）：的列的名字有意义吗？
11) 删节数据：是否检查过截断或缺失的数据需要更正？
12) 业务逻辑：是否根据对业务的了解，检查了数据的意义？

2、一旦完成了数据清理任务，最好检查一下项目的目标，并确认数据仍然与目标一致：
1) Confirm the business problem确认业务问题
2) Confirm the goal of the project确定项目目标
3) 验证数据可以解决问题，并与目标一致
当接收到更多的数据或对项目目标有了更好的理解时，可能需要重新回顾这些步骤的一部分或全部。这是一个贯穿于整个项目的持续过程。

另，清理过程中的变更日志非常非常重要。

2022-10-25
《统计学》笔记

1.1 什么是统计学：
用以搜集数据、分析数据和由数据得出结论的一组概念、原则和方法。
4个要素：问题、数据、方法、结论
（定义——》变量——》分析——》建议）

描述统计、
推断统计，参数估计——》假设检验

数据的欺骗性，幽灵数据

对数据要有敬畏之心。

SPSS、EXCEL

1.2什么是数据
变量的取值即为数据

计量尺度：
定量变量——》数值型数据
分类变量、顺序变量——》定性变量/数据

时间：
截面数据、时序数据

2.1 抽样与调查知识点
why省时、省钱；不能采用全面调查，如破坏性试验；设计科学，结果比全面调查可靠

什么是好的抽样？符合研究目的；能从样本计算出有效的估计值及其变动；可实践性

样本量大小与好坏无关，作用是决定统计分析结果的误差。
样本结构也无关，随机样本结构往往和总体不一致。
样本指标与其他调查的数值一致，只能说明这个样本不差，而不能证明它是一个好样本。

概率抽样方式：简单、分层、pps、整群、系统、多阶、多相

概率抽样基本准则：单元是从总体中按一定的概率随机抽取的。

随机：调查总体中的每个单元都以非零的概率入样。
不等于随意，
随意等于随机的条件：
1）总体元素一致
2）总体自动随机，如天文、物理、化学
社会科学领域往往不满足

等概率一定是随机的，随机不局限于等概率。

How随机：
1）一定要通过随机化程序实现
怎么判断？
1）多次抽样，频率/变化异常
2）一次性，抽样程序是否满足随机化

非概率抽样是用主观的方法从总体中抽选单元，方式：方便、判断、配额、自愿、滚雪球；
优点：快速简便、费用低、不需要抽样框；
缺点：对总体的假定一般不成立不能推断总体、不能得到可靠的估计值及误差估计值、样本一般有倾向性与偏差。
应用：
1）形成一种想法
2）设计开发概率抽样调查的初始步骤
3）解释概率抽样的调查结果
4）抽选参加访谈的个人

误差（抽样/非抽样）
非抽样误差：抽样框误差、回答误差、无回答误差（没有获得该单元的数据）
无回答大于30%的调查结果一般是不可信的。（无回答率；回答与无回答的样本差异）
降低无回答的方法：
1、改进调查组织（匿名、激励、选择合适的时间）
2、多次访问（3次还低于85%，继续）
3、替换样本单元（替换规则须在调查实施之前确定）
4、对敏感性问题采用技术展开

2020-08-20