PB级大数据架构音乐数据中心数仓综合项目

一、项目介绍

音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。

 

二、技术选型

音乐数据中心主要使用技术如下:CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等

 

三、项目核心功能模块

音乐数据中心数仓项目主要分析业务如下:

1)针对业务数仓建模分层设计

2)关系型数据库批量、实时采集到数据中心

3)SpringBoot日志采集接口采集日志数据到数据中心

4)歌曲、歌手热度分析

5)机器分布分析

6)机器位置信息统计分析

7)活跃、留存用户分析

8)用户机器营收分析

9)商户营收数据分析

10)地域营收分析

11)实时热歌榜单分析

12)实时PV/UV统计

13)音乐排行榜统计

14)… …

 

适合人群:

1)掌握Hadoop及HDFS原理和使用

2)掌握Hive、HBase、Sqoop、Flume工具

3)掌握SparkCore,SparkSQL,SparkStreaming原理及代码编写

4)掌握azkaban原理及使用

5)掌握Kafka原理及使用

6)掌握redis原理及使用