设为首页加入收藏
大数据实战项目之电商数仓 - 用户行为数据采集 (来源:环亚娱乐app)
作者:环亚娱乐app    发布于:2020-06-02 22:04    文字:【】【】【


     

  数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 —— 百度百科

  数据仓库不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括:清洗,转义,分类,重组,合并,拆分,统计等。大家可以看下这个图:

  用户行为数据采集平台的构建业务数据数据采集平台的构建数据仓库维度构建分析:用户,流量,会员,商品,销售,地区,活动等电商核心主题;采用即席查询工具,随时指标查询‘对集群性能进行监控元数据管理质量监控技术选型

  技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。

  业务数据,日志数据 通过 Nginx 到达我们的数据采集器,在到达 Nginx 之前,应该是在加一层数据的采集,这一层的数据采集主要就是数据平台对外提供的采集的接口,大家通过这个接口将数据打到数据平台,但是这里我没有加,主要是为了和原项目尽量的保持差不多;数据采集器里面的 Kafka Cluster 是通过 Flume 来写入到 HDFS 的,这一层可以取消,放在这纯粹时因为我不想写一个消费者去消费 Kafka 数据。想了一下,这个的流式计算,项目中用到的是 Spark , 这边也准备使用 Spark ,别问为什么,问就是 Spark 好久不用了,生疏了。自然,这里的 Flink 也是要安排上的。这里的实时计算的数据打入到的是 HBase这里的 Spark / Flink / Kafka / Flume / Hive 等一些框架,回附带这很多的面试题的,这个本人目前也在将收集到的一些面试题分享出来了,大家也可以去我的主页里面找 “大数据面试” 的关键字,或者找 “优化方案”小结

  这个第一部分主要就是先简单的认识一下 数据仓库 , 然后呢,走走这个数据流程,知道后面我们大概要做哪些事。后面呢,每个组件的安装部署,我感觉应该是不需要在做具体的介绍了。要么就是简单的去把这个数据的采集模块搭建一下,以及我们的日志的模拟数据的生成


脚注信息
版权所有 Copyright(C)2009-2015 环亚娱乐app(上海)实业有限责任公司