作者:王新春(唯品会 数据平台实时团队高级架构师) 主要分享内容: 流式数据处理和批数据处理的体系深度融合,部分数据加工和打宽直接在流数据中处理,并作为批处理或者 OLAP 引擎(Spark SQL/Presto/ClickHouse)等的输入,以达到数据口径统一,并且降低批处理的资源消耗的目标。 具体的实践包括:使用 Flink 做流量数据实时 ETL;Flink 实时入仓 MySQL 数据;使用 Flink 加工实时宽表和实时轻度汇总层数据,并提供给离线宽表、推荐算法和数据产品等使用。