价格: 46 学币

分类: 大数据

发布时间: 2022-10-08 13:33:49

最近更新: 2024-01-26 21:17:33

资源类型: VIP

优惠: 开通VIP/SVIP免费获取此资源

开通VIP享受更多优惠 网盘下载地址

Spark+ClickHouse实战企业级数据仓库,进军大厂必备.png

课程介绍

Spark+ClickHouse实战企业级数据仓库,进军大厂必备视频教程,由优库it资源网整理发布高清无密版。本课程结合ClickHouse+Spark 这一对数据处理的“黄金搭档”,选取“大数据量企业数据仓库“这一典型场景,实战大数据量下数仓的建模、设计与调优等实用技巧,快速掌握ClickHouse+Spark核心技能,为晋级大数据架构师铺路!

相关课程推荐

极客时间 - 大数据训练营 黑马狂野大数据 mk-大数据工程师2022版

Spark+ClickHouse实战企业级数据仓库,进军大厂必备 Spark+ClickHouse实战企业级数据仓库,进军大厂必备

课程目录

.
├── 1-从0到1搭建项目开发环境,快速上手大数据开发/
│   ├── [ 20M]  1-1 大数据时代,你还不知道数据仓库么?
│   ├── [2.6M]  1-2 本章概览
│   ├── [ 36M]  1-3 基于IDEA + Maven构建Spark工程
│   ├── [ 50M]  1-4 源码、启动脚本、配置等自动构建打包
│   └── [ 58M]  1-5 项目多模块规划与自动构建打包
├── 2-项目关键技术准备,学习通用的数据处理技术/
│   ├── [4.8M]  2-1 本章概览
│   ├── [ 25M]  2-2 IPv4和数值转换
│   ├── [ 10M]  2-3 IP地址简写和全写的格式转换
│   ├── [ 34M]  2-4 IP地址二分查找
│   ├── [ 10M]  2-5 Spark自定义IP函数
│   ├── [ 51M]  2-6 初识Grok通用数据解析器
│   ├── [ 23M]  2-7 在程序中解析Grok
│   ├── [ 25M]  2-8 自定义Grok表达式
│   ├── [ 22M]  2-9 Grok工具类封装
│   ├── [ 35M]  2-10 在Spark中集成Grok
│   └── [ 22M]  2-11 Grok的序列化问题与源码修改
├── 3-项目数据准备,操练基于Spark的数据开发与优化/
│   ├── [2.0M]  3-1 本章概览
│   ├── [ 15M]  3-2 项目业务数据
│   ├── [ 29M]  3-3 生成IP、域名、IP位置的中间数据(上)
│   ├── [ 46M]  3-4 生成IP、域名、IP位置的中间数据(下)
│   ├── [ 30M]  3-5 生成域名备案、IP位置、违规实体数据
│   ├── [ 70M]  3-6 基于Grok模拟安全访问日志
│   └── [ 11M]  3-7 安全访问日志生成之广播变量优化
├── 4-初识OLAP数仓架构/
│   ├── [1.3M]  4-1 本章概览
│   ├── [ 12M]  4-2 基于Lambda架构的数仓
│   ├── [5.8M]  4-3 基于Kappa架构的数仓
│   └── [ 10M]  4-4 基于实时OLAP架构的数仓
├── 5-详解数据仓库基础理论,掌握数据仓库的实施流程/
│   ├── [3.3M]  5-1 本章概览
│   ├── [9.1M]  5-2 数据仓库的定义
│   ├── [ 10M]  5-3 3NF范式建模
│   ├── [9.8M]  5-4 Kimball和Inmon数据仓库架构
│   ├── [ 15M]  5-5 数据仓库建模方法
│   ├── [ 13M]  5-6 事实表与维度表
│   ├── [8.0M]  5-7 星型、雪花和星座维度模型
│   ├── [ 12M]  5-8 数据仓库构建流程
│   └── [ 21M]  5-9 数据仓库分层模型
├── 6-【项目实战第一篇】项目业务流程与ODS层数据同步/
│   ├── [1.8M]  6-1 课程目录
│   ├── [7.9M]  6-2 项目业务流程与技术架构
│   ├── [8.8M]  6-3 ODS数据同步技术架构
│   ├── [ 62M]  6-4 基于HDFS API的数据同步
│   ├── [ 78M]  6-5 基于HDFS API的数据同步工具封装
│   └── [ 41M]  6-6 业务数据库的数据同步
├── 7-快速上手OLAP分析引擎ClickHouse/
│   ├── [2.6M]  7-1 本章概览
│   ├── [ 29M]  7-2 初识OLAP分析引擎ClickHouse
│   ├── [ 14M]  7-3 ClickHouse与MySQL、Hbase、Elasticsearch
│   ├── [ 10M]  7-4 ClickHouse单机版安装
│   ├── [ 26M]  7-5 ClickHouse快速入门
│   ├── [ 36M]  7-6 ClickHouse-client使用
│   ├── [ 15M]  7-7 可视化工具DBeaver安装配置
│   ├── [ 13M]  7-8 ClickHouse表引擎快速入门
│   └── [ 24M]  7-9 ClickHouse学习建议
├── 8-基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程/
│   ├── [2.7M]  8-1 本章概览
│   ├── [ 62M]  8-2 JDBC操作ClickHouse
│   ├── [ 63M]  8-3 使用Spark将数据写入ClickHouse
│   ├── [ 51M]  8-4 Spark写ClickHouse的配置化改造
│   ├── [ 84M]  8-5 在Spark中集成写ClickHouse的通用能力
│   └── [ 85M]  8-6 基于Spark源码自定义ClickHouse外部数据源
├── 9-数仓高级之维度模型设计/
│   ├── [3.0M]  9-1 本章概览
│   ├── [ 13M]  9-2 维度相关基本概念
│   ├── [4.1M]  9-3 维度设计的基本方法
│   ├── [5.5M]  9-4 维度设计的反规范化
│   ├── [8.8M]  9-5 一致性维度集成
│   ├── [ 17M]  9-6 维度模型设计原则和方式
│   ├── [ 30M]  9-7 缓慢变化维度SCD
│   ├── [ 14M]  9-8 维度的层次关系
│   └── [ 14M]  9-9 其他常见的维度模型
├── 10-【项目实战第二篇】构建项目公共维度层/
│   ├── [2.7M]  10-1 本章概览
│   ├── [ 55M]  10-2 反规范化维度合并之应用内容的模型设计与实现
│   ├── [ 22M]  10-3 公共方法封装
│   ├── [3.6M]  10-4 维度合并拆分之IP域名备案模型设计
│   ├── [ 29M]  10-5 IP域名备案维度代码实现
│   ├── [ 33M]  10-6 违规IP域名数据入库
│   ├── [5.4M]  10-7 维度层次结构扁平化之IP地址段区域维度模型设计
│   └── [ 38M]  10-8 IP地址段区域维度代码实现
├── 11-ClickHouse的MergeTree系列引擎原理、实践与优化/
│   ├── [3.7M]  11-1 本章概览
│   ├── [7.3M]  11-2 表引擎概述
│   ├── [ 34M]  11-3 MergeTree引擎
│   ├── [ 31M]  11-4 数据片段存储合并机制与自定义分区
│   ├── [ 17M]  11-5 主键、索引、数据标记的工作机制
│   ├── [ 61M]  11-6 性能优化利器之跳数索引的基本使用
│   ├── [ 27M]  11-7 性能优化利器之跳数索引实现原理与使用场景
│   ├── [ 45M]  11-8 性能优化利器之Projection
│   ├── [ 21M]  11-9 ReplacingMergeTree引擎
│   ├── [ 12M]  11-10 SummingMergeTree引擎
│   ├── [ 26M]  11-11 AggregatingMergeTree引擎
│   ├── [ 20M]  11-12 CollapsingMergeTree引擎
│   ├── [9.9M]  11-13 VersionedCollapsingMergeTree引擎
│   ├── [ 26M]  11-14 MergeTree系列引擎选型对比
│   └── [ 31M]  11-15 数据实时更新删除
├── 12-数仓高级之事实表模型设计/
│   ├── [2.2M]  12-1 本章概览
│   ├── [ 18M]  12-2 事实表设计过程
│   ├── [ 16M]  12-3 事务、无事实事实表模型设计
│   ├── [ 15M]  12-4 多事务事实表模型设计
│   ├── [7.7M]  12-5 周期快照事实表模型设计
│   ├── [ 17M]  12-6 累积快照事实表模型设计
│   ├── [6.6M]  12-7 聚集事实表模型设计
│   └── [8.0M]  12-8 六类事实表对比
├── 13-【项目实战第三篇】数据清洗加工,构建项目数据明细层/
│   ├── [2.7M]  13-1 本章概览
│   ├── [7.4M]  13-2 事务无事实事实表模型建模
│   ├── [ 64M]  13-3 日志事务事实表代码实现(上)
│   ├── [ 53M]  13-4 日志事务事实表代码实现(下)
│   ├── [ 31M]  13-5 日志拦截无事实事实表代码实现
│   ├── [ 21M]  13-6 累计快照事实表建模与代码实现
│   ├── [ 52M]  13-7 Spark资源参数调优
│   ├── [ 43M]  13-8 大数据量场景下的程序部署与优化实践
│   └── [ 25M]  13-9 周期性快照事实表模型设计与实现
├── 14-构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案/
│   ├── [1.5M]  14-1 本章概览
│   ├── [ 32M]  14-2 集群规划与环境准备
│   ├── [ 46M]  14-3 ClickHouse集群安装配置
│   ├── [ 30M]  14-4 ClickHouse集群功能验证
│   ├── [ 10M]  14-5 ClickHouse的原子写入与去重
│   ├── [ 22M]  14-6 复制表与副本同步机制
│   └── [ 14M]  14-7 分布式表与本地表
├── 15-【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略/
│   ├── [2.8M]  15-1 本章概览
│   ├── [6.5M]  15-2 负载均衡与高可用五问
│   ├── [7.5M]  15-3 分布式请求的副本高可用和负载均衡
│   ├── [7.6M]  15-4 基于代码层面的负载均衡与高可用
│   ├── [ 61M]  15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用
│   ├── [ 42M]  15-6 基于Chproxy的负载均衡与高可用
│   ├── [9.5M]  15-7 Spark如何写本地表方案
│   ├── [ 62M]  15-8 Spark写本地表之随机策略代码实现
│   ├── [ 18M]  15-9 Spark写本地表之轮询策略代码实现
│   ├── [ 32M]  15-10 大数据量场景写ClickHouse集群的程序部署与优化
│   └── [5.9M]  15-11 Spark自定义分片路由与方案总结
├── 16-【项目实战第五篇】如何选择合适的维度表存储方案/
│   ├── [2.8M]  16-1 本章概览
│   ├── [ 13M]  16-2 Log系列引擎
│   ├── [ 22M]  16-3 MySQL引擎
│   ├── [ 22M]  16-4 HDFS引擎与HA配置
│   ├── [ 23M]  16-5 高性能数据检索的RocksDB引擎
│   ├── [ 11M]  16-6 Merge表引擎
│   ├── [ 18M]  16-7 Join表引擎
│   ├── [ 49M]  16-8 深入浅出ClickHouse数据字典(上)
│   ├── [ 43M]  16-9 深入浅出ClickHouse数据字典(下)
│   ├── [ 10M]  16-10 分布式场景的表关联子查询的运行流程与优化
│   ├── [ 12M]  16-11 分布式场景下的维度表存储选型优化
│   └── [ 32M]  16-12 项目的维度表存储优化
├── 17-【项目实战第六篇】数据汇总层与应用查询优化/
│   ├── [2.3M]  17-1 本章概览
│   ├── [ 11M]  17-2 主键与排序键优化
│   ├── [ 13M]  17-3 聚合查询优化
│   ├── [ 10M]  17-4 物化视图提速
│   ├── [ 42M]  17-5 DWS层之IP流量监测主题
│   ├── [ 26M]  17-6 DWS层之区域流量分析主题
│   ├── [ 39M]  17-7 构建数据应用层(ADS)
│   ├── [ 18M]  17-8 应用查询优化案例
│   └── [4.3M]  17-9 数据写入与查询优化常用经验法则
├── 18-【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控/
│   ├── [2.8M]  18-1 本章概览
│   ├── [5.7M]  18-2 基于轻量级BI工具的数据可视化效果
│   ├── [ 52M]  18-3 Superset环境搭建与基本使用
│   ├── [ 28M]  18-4 Superset查询分析可视化展示
│   ├── [ 25M]  18-5 Grafana的安装与ClickHouse数据源管理
│   ├── [ 22M]  18-6 Granfana查询分析可视化展示
│   ├── [5.8M]  18-7 ClickHouse监控概述
│   ├── [9.1M]  18-8 ClickHouse系统表+ Granfana可视化监控
│   ├── [ 15M]  18-9 Promethues安装与ClickHouse的metric采集
│   └── [ 14M]  18-10 prometheus + Granfana可视化监控
├── 19-数仓管理之调度系统DolphinScheduler 3.x/
│   ├── [5.1M]  19-1 本章概览
│   ├── [ 15M]  19-2 我们为什么需要配合调度系统
│   ├── [ 16M]  19-3 DolphinScheduler单机部署
│   ├── [ 33M]  19-4 快速上手DolphinScheduler
│   ├── [ 11M]  19-5 DolphinScheduler源码编译
│   ├── [ 55M]  19-6 DolphinScheduler伪集群安装
│   ├── [ 12M]  19-7 工作流管理之子流程管理
│   ├── [ 19M]  19-8 工作流管理之依赖检查管理
│   ├── [ 14M]  19-9 工作流管理之Conditions条件分支判断
│   ├── [ 12M]  19-10 工作流管理之Switch条件分支判断
│   ├── [ 55M]  19-11 本地和HDFS两种文件资源管理方式
│   ├── [ 45M]  19-12 内置参数、本地参数、全局参数和参数传递
│   ├── [ 24M]  19-13 如何动态生成自定义参数
│   ├── [ 30M]  19-14 Spark任务节点管理
│   ├── [ 19M]  19-15 流程告警管理
│   ├── [ 82M]  19-16 数仓项目之文件数据源同步
│   └── [ 27M]  19-17 数仓项目之Spark工作流调度
├── 20-构建现代数据技术栈的元数据管理平台/
│   ├── [5.7M]  20-1 本章概览
│   ├── [ 19M]  20-2 为什么数仓管理中需要元数据管理
│   ├── [ 20M]  20-3 元数据体系架构的演进
│   ├── [ 17M]  20-4 DataHub的元数据体系架构
│   ├── [ 46M]  20-5 DataHub元数据系统搭建
│   ├── [8.4M]  20-6 基于Pull(拉取)流程的元数据摄取
│   ├── [ 27M]  20-7 基于Pull的元数据摄取实践
│   ├── [ 28M]  20-8 DataHub的MetaData元数据模型
│   ├── [ 22M]  20-9 基于Kafka的Sink接收器同步MySQL元数据
│   ├── [ 19M]  20-10 ClickHouse的元数据摄取实践
│   ├── [9.2M]  20-11 可视化BI工具的元数据摄取
│   ├── [ 13M]  20-12 构建数据集之间的血缘链路实践
│   └── [ 14M]  20-13 构建数据集与可视化BI工具的血缘链路实践
├── 21-通用数据质量管理实践/
│   ├── [4.8M]  21-1 本章概览
│   ├── [ 12M]  21-2 如果数仓不考虑数据质量会有什么危害
│   ├── [ 10M]  21-3 数据质量评估标准
│   ├── [ 19M]  21-4 数据质量管理架构与数据模型
│   ├── [ 41M]  21-5 通用数据质量管理工具之配置逻辑
│   ├── [ 70M]  21-6 通用数据质量管理工具之代码实践
│   ├── [ 21M]  21-7 通用数据质量管理工具之历史周期性质量指标对比
│   ├── [ 19M]  21-8 单数据源的检查之唯一性校验
│   ├── [ 14M]  21-9 单数据源的检查之表字段长度校验
│   ├── [ 11M]  21-10 单数据源的检查之表记录数检查
│   ├── [ 11M]  21-11 单数据源的检查之枚举值校验
│   └── [ 15M]  21-12 多数据源检查之准确性检查
└── 资料代码/

资源目录截图

Spark+ClickHouse实战企业级数据仓库,进军大厂必备