Dan

数据分析笔记-AB实验系统

2020-04-11

analysis

现在几乎所有的大公司都会采用AB实验来进行数据驱动的决策。任何细微的改动、新功能的上线，如果没有AB实验结果的佐证，你都不好意思上线。所以一个AB平台，动辄每天几百个实验在同时测试着我们的用户，而根据Netflix的经验，不好意思，这其中90%的实验会得出错误的结论。

Read All
大数据笔记 - spark vs. flink

2019-01-12

大数据

先说观点，spark和flink都是目前能够一站式解决lambda架构的计算框架。因为spark出来的早，现在在活跃度、成熟度方面比flink强。flink发展相对较晚，相比spark各个细节做了很多优化。个人觉得二者是同一个世代计算框架的不同实现，细节方面会相互学习、增强。但要说谁能干掉谁，恐怕都没有这能力。

Read All
大数据笔记 - 监控系统

2018-11-20

ops

在实际工作中经常碰到这样的监控需求，重点城市的访问流量是否有大的波动、一个广告位的ecpm是否在合理的范围内、机器的CPU利用率是否正常… 经过一段时间case by case的支持，我们想到或许有通用的办法去解决这类问题。

Read All
大数据笔记 - 实时olap

2018-08-11

大数据

最近半年花了不少时间在实时olap上，业务场景是全维度实时监控，这里记录下自己的一些思考。对于大多数大数据底层应用，公司都有很成熟的支持中间件。比如实时消息队列(TDBANK)、KV存储(CKV)、sql on hadoop(tdw)等等。可是实时olap这个场景，基本上都是各个业务自己小规模的玩玩。之前一直想吐槽数据平台不作为，现在自己摸索了这么久才终于明白，实时olap场景的投入产出比 – 真的有点低。

Read All
大数据笔记 - 大数据计算框架

2018-06-20

大数据

大数据计算框架日新月异，而每次计算效率的大幅提升，简单总结就一句话：IO优化。不管是存储，还是计算的优化，都是更少的磁盘IO，更多的内存IO。本文结合本人在自身工作中的经验，主要讲一下对大数据计算效率上的一些思考。

Read All

1/3

数据分析笔记-AB实验系统

大数据笔记 - spark vs. flink

大数据笔记 - 监控系统

大数据笔记 - 实时olap

大数据笔记 - 大数据计算框架