2019年大数据课程大纲

目前课程版本:7.0   升级时间:2019.07.22   查看详细

大数据课程设计理念

  •  

    完全面向零基础的大数据课程

    我们的课程帮助了近500名零基础的学员高薪就业,近2000名学生正在努力蜕变中。0基础也能高薪就业的大数据课程。

  •  

    更新潮紧随技术发展浪潮

    全面升级Spark核心就业项目,新增第四代大数据处理框架Flink,强化推荐系统实战并扩充至7天。

  •  

    更真实深度还原企业应用场景

    所有项目均是来自企业实战项目,报表分析、日志分析、推荐系统/广告系统、反欺诈系统、为就业提供强力保障。

  •  

    更全面典型技术点线面横向扩展

    课程全面覆盖大数据技术,数据收集、存储、计算、挖掘、展现,离线分析/实时分析/内存计算一网打尽。

  •  

    更广泛就业领域

    大数据时代已然到来,在数据已经在一线企业、中小型企业、传统企业、互联网企业全面落地。就业不再局限于互联网行业。

大数据基础班-课程大纲

学习对象

0基础0经验的小白人员;想通过最低的成本来试一下自己是否适合做大数据相关工作的转型人员。

注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师   点击咨询



大数据基础班课程大纲
所处阶段主讲内容技术要点学习目标
第一阶段:
Java基础
计算机基础DOS常用命令、Java概述、JDK环境安装配置、环境变量配置、Java程序入门核心能力培养:
能够掌握DOS系统常用基本命令;
熟练使用eclipse编写java代码;
熟练使用java语言的常用对象;
使用java编写单机应用程序;
掌握面向对象编程思想,为以后深入学习JavaEE就业课程打下坚实的基础。

具备能力及市场价值:
掌握Java基础知识,为后面就业班的java课程和大数据课程打下坚实的基础。
编程基础常量与变量、数据类型、运算符、流程控制语句、方法、数组
面向对象面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法
常用类Object类、Scanner类、Random类、String、StringBuilder类
集合操作集合概述、集合特点、ArrayList集合
IO操作字符输入流、字符输出流、字符缓冲输入流、字符缓冲输出流、 复制文件、集合与文件中数据相互读写。

大数据就业班-课程大纲

学习对象

本课程适合于计算机专业,有一定Java基础、通过入学考核的未就业人士。

提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师   点击咨询




大数据就业班课程大纲
所处阶段主讲内容技术要点学习目标
第二阶段:
JavaWeb阶段
Java基础增强类加载器、反射、网络编程、端口和协议、TCP协议、服务端、客户端、多线程、线程和进程、线程的生命周期、线程安全、代码同步、注解、JDK常用注解、自定义注解核心能力培养:
运用常用的网页开发技术设计网页;
掌握WEB系统交互原理;
掌握JavaWeb开发核心技术;
掌握JavaWeb高级技术,创建更好的Web应用程序;
具备B/S结构软件开发能力;
掌握数据库的相关技术;
掌握如何使用Maven管理项目工程。

具备能力及市场价值:
能够完成B/S结构网站开发,具备了真实环境的项目部署能力;
能够完成中小型企业管理系统等传统项目的开发。
前端HTML、CSS、JavaSript、BootStrap
数据库MySQL数据库、MySQL单表操作、MySQL多表操作、MySQL事物、 MySQL存储引擎、JDBC、JDBCDataSource
Web核心Tomcat、Http协议、servlet入门、Rquest、Response、JSP、MVC、 Cookie、Session、JSP、ETLJSTL、Filter、listener
web增强Jquery、Ajax、ajax跨域、分页
项目构建及管理Maven项目构建、管理、编译、仓库配置、 Git项目管理
可视化项目采集数据(埋点) 、echarts的快速入门 、使用echarts显示分析结
第三阶段:
Hadoop技术栈实战详解
Linux实战Linux概述、vmware workstation安装、vmware网卡net1和net8介绍、centos安装和配置、Linux目录结构、超级用户和普通用户介绍和区别、linux的gateway、netnask和DNS讲解、Linux的网卡配置介绍(networking)、主机名配置(临时和永久)、IP配置(DHCP和static)、防火前介绍和配置(iptables和sellinux)、ssh工具安装、连接和使用、SCP工具安装、连接和使用、关机和重启操作、Linux用户、文件和权限操作 用户管理操作、文件、文件夹管理操作、文件查找操作(find、grep)、VI和VIM文本编辑器操作、文件压缩和解压操作(tar、unzip)、Linux的RPM查询、安装和卸载Linux shell编程、循环编程(if、case、for、while)、awk、sed文本处理操作、ssh无密码登录配置、scp多节文件拷贝操作、expect介绍和使用、yum本地源配置、nestat 查看顿口使用情况、查看节点的CPU、cores、内存的大小、top 、iostat命令的使用核心能力培养:
能够掌握DOS系统常用基本命令;
熟练使用eclipse编写java代码;
熟练使用java语言的常用对象;
使用java编写单机应用程序;
掌握面向对象编程思想,为以后深入学习JavaEE就业课程打下坚实的基础。

具备能力及市场价值:
掌握Java基础知识,为后面就业班的java课程和大数据课程打下坚实的基础。
大数据基础和
硬件介绍
什么叫大数据、大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心
ZookeeperZookeeper的应用场景、Zookeeper的架构和原理、Zookeeper的存储模型、Zookeeper的Znode创建、Zookeeper的选举机制、Zookeeper的客户端操作
HDFS组件HDFS设计的特点、master-slave架构介绍、block块存储、RF拷贝因子、机架感知、block拷贝策略、namenode功能介绍、datanode功能介绍、Metadata元数据介绍、读写流程、HDFS Federation功能介绍、HDFS snapshots快照介绍、NameNode HA架构和原理、HDFS管理员常用操、HDFS权限控制
MapReduce组件MapReduce设计的目标、MapReduce架构和原理、MapReduce快速入门、Mapper抽象类、Reducer抽象类、Split机制、Map和Reduce个数的确定、Combinar机制、Partition机制、自定义Partition、MapReduce序列化、MapReduce自定义排序、Mapreduce数据的压缩、InputFormat抽象类、自定义InputFormat、Recordreader机制、自定义、RecordReader、二次排序
Yarn组件Yarn原理和架构、RM和NM功能介绍、Application Master功能介绍、Container介绍、Container资源的封装(CPU、内存和IO)
资源调度策略(FIFO、Fair和Capacity)、Fair Scheduler配置和使用、Yarn实现计算资源多租户配置和使用
Hive组件Hive的功能介绍、创建表、本地加载数据、HDFS加载数据、基本数据类型、复合数据类型、静态分区、动态分区、临时表、Metastore服务、HiveServer2、内置函数、自定义UDF和UDAF、数据压缩、ORC、Parquet、自动化脚本、常见性能优化、explain执行计划详解
Impala组件Impala的应用场景、架构和原理、安装、基本查询语法、shell交互窗口、数据加载、JDBC连接Impala、Impala的优化、invalidate metadata、compute stats使用
Sqoop&CDC&DataXsqoop功能介绍、sqoop架构和原理、import命令、export命令、抽取mysql数据到HDFS、抽取HDFS数据到mysql、抽取mysql数据到Hive、抽取Hive数据到mysql、sqoop增量抽取数据、CDC工具介绍、OGG功能介绍和影场景、canal功能介绍和应用场景、DataX功能介绍和应用场景
Oozie&AzkabanOozie的安装与介绍、Oozie语法介绍、Oozie任务调度配置-XML、Oozie的工作流调度机制、Azkaban的安装
Azkaban架构和原理、Azkaban的任务调度
第四阶段:
NoSQL、Kafka和ELK技术实战
Redis&Hbase 组件NoSQL介绍、Redis的原理和架构、Redis的使用、Redis的集群搭建、Hbase的应用场景、Hbase架构和原理、表的的创建和使用、列簇、多版本控制、增删改查操作、Java API操作、HFile读取、split操作、flush操作、compact操作、过滤器、RowKey设计和优化策略、HBase+Redis微博实战案例核心能力培养:
掌握NoSQL数据库的特点和应用场景;
掌握Hbase的应用场景和核心原理;
掌握Hbase的RowKey设计的策略;
掌握Hbase常用的性能优化手段;
掌握分布式数据发布和订阅的工具Kafka;
掌握Kafka工具的使用和性能优化;
掌握ELK技术栈(end-to-end)的应用场景;
掌握Logstash数据抽取、清洗,ElasticSearch分布式检索,Kibana数据展示的应用。

可解决现实问题:
解决Hbase的RowKey高性能设计策略,满足业务的需求;
解决Hbase的性能瓶颈,解决业务问题对Hbase高性能的挑战;
解决企业里面海量数据实时传输的问题;
解决海量日志快速检索和监控问题。

市场价值:
具备大数据高性能数据读写的常用技术解决方案开发思想,为以后学习大数据项目阶段打下坚实的基础。
Kafka组件为什么需要消息系统、kafka应用场景、kafka架构和原理、Kafka的CAP特性、topic(创建、修改和删除)、partition策略、自定义Partition、offset、replication、Message读写过程、Message的存储策略、producer、consumer、Consumer Group使用、Java API操作、监控工具和优化
ELK技术栈Elasticsearch的功能、架构和原理、拷贝机制、Head插件、Index索引、Get、Delete、Update、聚合操作、监控插件bigdesk、DSL、SQL插件使用、ELK的应用场景介绍、Logstash的功能介绍、Logstash常用插件介绍、kibana的功能介绍、数据探索、可视化、常用插件使用、ELK实战
第五阶段:
Spark技术栈实战详解
Scala语言Scala基础、声明变量、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、akka核心能力培养:
掌握分布式内存计算的思想;
掌握Spark分布式计算的架构和思想;
掌握Spark和Mapreduce分布式计算框架的比较和区别;
掌握Spark的RDD、DAG、Task、Partition等设计思想;
掌握Spark SQL的功能、SparkSQL+Hive的整合;
掌握DataFrame、DataSet的编程模型;
掌握Structured Streaming的应用场景和与Kafka的整合;
掌握MLlib数据挖掘的思想和GraphX图计算的思想;
掌握Spark技术栈的高级特性和性能调优的能力。

可解决现实问题:
解决企业面对海量数据处理慢的问题;
解决大数据平台数据挖掘的应用场景;
解决大数据平台实时计算的应用场景;
解决Spark在企业级应用常见的问题和性能调优的方法和技巧。

市场价值:
目前Spark是企业级大数据平台必备的使用技能,Spark对找工作有着决定性的优势,是企业级的大数据离线分析、数据挖掘、实时计算不可或缺的技术栈。
Spark CoreSpark的应用场景、架构和原理、入门案例、Spark Session讲解、RDD的概念和特性、Transformation RDD讲解、Action RDD讲解、Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制、RDD的广播操作、DAG思想、DAG的生成、DAG的处理过程、运行机制、Driver和Executor
Spark SQLSpark SQL功能介绍、DataFrame、DataSet、RDD、Dataset和DataFrame的转换、读写Hive表数据、读写HDFS的数据、DataFrame的API操作、读取文件(txt、CSV、Json、parquet)、临时表、读写RDBMS、Spark SQL执行计划、Spark SQL的性能优化
Structured StreamingStructured String的功能介绍、input功能、output功能、window操作、watermark操作、过期数据操作、去重数据操作、
整合Socket数据、整合Kafka数据、OutputModel(Append\complete\update)功能、
Flume+kafka+Structured Streaming实现用户访问行为的实时分析
Spark MllibMllib的决策树和随机森林、Mllib线性回归原理及使用、Mllib逻辑回归原理及使用、Mllib KMeans原理及使用、Mllib朴素贝叶斯原理及使用、Mllib关联算法原理及使用、Mllib的ALS推荐算法原理及使用、Mllib实现电信用户流失模型案例
Spark GraphX什么是图、图的组成和概念、GraphX构造图、GraphX图的基本操作、 GraphX实现最短路径、 GraphX最小连通图、
GraphX PageRank算法实现、Neo4j图数据库使用、GraphX 社交图的构建
Spark高级 和优化DAG优化、核心参数的解释和优化、Shuffle原理和优化、内存管理机制(堆内和堆外)、通信协议Netty原理、
Executor的性能优化、核心参数优化、核心源码解读
第六阶段:   
Flink技术栈实战详解
Flink CoreFlink的运行机制、Flink组件和逻辑计划、Flink执行计划生成、JobManager中的基本组件、TaskManager、算子、网络、水印WaterMark、CheckPoint、任务调度与负载均衡核心能力培养:
掌握分布式实数计算框架架构和思想;
掌握Flink、Spark和MapReduce的区别;
掌握Flink流式计算的功能和应用;
掌握Flink SQL的使用;
掌握Flink DataStream的使用;
掌握Flink CEP复杂事件处理的应用场景;
掌握Flink的常用优化手段和技巧。

可解决现实问题:
解决企业里面海量数据对实时性要求要的数据分析和应用;
解决企业里面流式复杂事件处理的问题;
解决Flink企业级应用常见的优化技巧和手段。

市场价值:
Flink目前的人才需求缺口非常的大、非常的稀缺
目前Flink在大型互联网公司使用的非常的广泛,在传统行业Flink目前也是处在一个爆发的阶段。
Flink StreamSQLStreamSQL的功能介绍、StreamSQL的编程接口介绍、StreamSQL常用算子介绍、StreamSQL的Window操作、StreamSQL和Kafka整合
Flink SQLEnvironment功能、注册一个Table、注册一个Table Source、注册一个外部Catalog(目录)、Table API和SQL 操作、注册Table、将Table转换为DataStream或者DataSet、Table的执行计划
Flink CEPCEP的应用场景、CEP原理、单个模式、混合模式、忽略策略、示例场景实现
Flink项目实战Flume+Kafka+Flink+Hbase+Sqoop+canal+MySQL案例实战
第七阶段 :  
大数据新技术实战详解
KuduKudu的应用场景、原理和架构、分区策略、读写过程、常用操作、Kudu整合Impala实战核心能力培养:
掌握Kudu的功能和应用场景;
掌握Kylin的功能和应用场景;
掌握Druid的功能和应用场景;
掌握维度建模的方法和常用的技术。

可解决现实问题:
解决企业级OLAP的解决方案;
解决企业级实时数仓的解决方案;
解决企业里面离线的指标分析遇到的问题。

市场价值:
Kudu、Kylin和Druid目前人才需求量在不断的增加;
未来大数据平台的离线或者流式的指标统计基本全用Kylin和Druid实现。
KylinKylin的应用场景、原理和架构、Hive数据加载、本地数据加载、Kafka数据加载、创建Module、创建Cube、增量Cube、Cube优化、Kylin+Hive实战
DruidDruid应用场景、集群搭建、数据加载、重要概念、架构及原理、数据查询、元数据、实时应用案例
数据仓库概念和设计方法数据仓库的概念、数据模型概念、、维度模型、雪花模型、数据架构、数据分层介绍、ODS层设计、DW层设计、DWB/S层设计、DM层设计、应用层设计、基于Hadoop大数据平台实现数据仓库、企业级数据仓库案例介绍、企业级数据仓库设计的规范
   第八阶段:    
项目实战一
《企业级360°全方位用户画像》技术栈Hadoop的技术栈(Hadoop、hive、Impala、Hbase、Sqoop)、Spark2.0的技术栈(Spark Core、Spark SQL、Spark Mllib)、分布式检索(ElasticSearch)、多维分析(Kylin)、关系型数据库(Mysql)、平台管理(Zookeeper、Ambari)、调度框架(Oozie、Azkaban)可掌握的核心能力: 
通过Sqoop迁移业务数据到HBase;
基于数据内容确定业务场景并使用SparkMLlib建模 ;
建立标签及其规则关联算法模型 ;
确定标签更新周期生成Oozie的定时工作流执行;
YARN执行作业完成后写入画像结果数据到HBase和Solr ;
通过RestAPI查询Solr并实时生成用户画像结果展示;
标签的分类;
组合标签的创建和RFM模型使用。

可解决的现实问题:
1.用户画像是大数据应用的底层核心的服务,例如:推荐、营销、千人千面、个性化推荐和精准营销等应用都依赖于用户画像服务;
2.通过对用户进行画像,实现不同用户的个性化服务,提高企业的营收。

市场价值: 
使用比较广泛,在企业里面,基本只要有大数据平台,就会有基础服务用户画像;
此项目可以举一反三,应用到其他的行业里面,如:金融、电信和航空等;
行业绝对领先的大数据项目实战。
    第九阶段 :   
项目实战二
《千亿级实时数据仓库》
技术栈
Flink技术栈(Flink SQL、Flink DataSet、Flink DataStream、Flink CEP)、Spark2.x技术栈(Spark Core、Spark SQL、Structured Streaming)、时序数据存储分析(Druid)、历史数据存储以及资源管理(HDFS、Yarn、MapReduce、Hive、Hbase)、数据采集同步(Flume、Sqoop、canal、DataX、Kafka)、平台管理(Zookeeper、Cloudera Manager)、调度框架(Oozie、Azkaban)可掌握的核心能力:
企业级离线和流式数仓建设的方案和思想;
企业级数据仓库建设的难点攻克;
数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想;
阿里巴巴数仓分层架构(ODS-DWB-DWS-DM-ADS)实战;
采用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计;
利用Druid时序分析数据库进行数据的存储以及指标的统计;
离线数仓hive通过扩展Kylin、HBase等框架,实现对离线数据的即席查询。

可解决的现实问题:
基于Flink和Druid实现实时数仓的解决方案,对于数据法人运营者来说,能够实时的了解数据的情况,从而做出相应的数据决策,同时也解决了数据量非常巨大隔夜分析、统计的问题;
解决了企业级海量数据存放的问题,通过数仓分层架构(ODS-DWB-DWS-DM-ADS),实现数据易用性、可用性、稳定性、可扩张性和安全性;
本项目,通过类似于阿里双十一大屏显示的功能,实现了海量数据实时分析和展现。

市场价值:
目前企业主要以离线数据仓库为主,现在一些大型的互联网公司开始使用Flink+Druid来实现实时数仓的功能,人才缺口比较大;
培养目前比较流行的技术Flink和Druid;
增强企业级项目实战的经验。
第十阶段:    
深度学习实战
Python基础和
常用库介绍
Python基本语法、Python常用库、anaconda工具介绍、Numpy库功能和使用、Pandas库功能和使用、Matplotlib&Seaborn库功能和使用核心能力培养:
掌握机器学习算法理论基础;
熟悉Python语言基础及数据科学库;
熟悉机器学习应用场景;
掌握scikit-learn机器学习库结合Python完成全栈机器学习建模;
掌握Tensorflow深度学习平台的使用
掌握使用Tensorflow实现计算机视觉、自然语言和情感分析问题

可解决现实问题:
通过使用Tensorflow解决企业里面深度学习的应用
解决了深度学习的算法选择和平台的选择

市场价值:
能够胜任机器学习、数据挖掘等相关工作,包括推荐算法工程师、数据挖掘工程师、机器学习工程师,填补人工智能领域人才急剧增长缺口。
深度学习基础MP神经元、感知机模型、激活函数、求导、cost函数、梯度下降算法、输入层、隐藏层、输出层、如何设计一个神经网络结构
Tensorflow
基础和实战
Tensorflow简介、环境安装、计算图的简介、计算图及张量实战、变量简介、tensorflow简要计算实战、 tensorflow线性回归案例实战、tensorboard基本用法、tensorboard用法详解、tensorboard实战线性回归
Tensorflow计算机
视觉实战
tensorflow实战手写体数据、tensorflow泰坦尼克号实战1、tensorflow泰坦尼克号实战2、tensorflow实战多层感知机理论基础、tensorflow多层感知机实战Mnist数据集、CNN网络结构浅析、CNN网络结构详解、CNN概念补充详解、CNN实战1、CNN实战2
Tensorflow
自然语言处理
RNN基础场景及数据定义、RNN前向传播详解、RNN反向传播详解、RNN结构分类、语言模型详解及RNN解决方案、RNN总结回顾及案例实践、RNN前向逐步算法代码演示、GRU单元、LSTM原理及结构、LSTM实战手写体识别、GRU及其他变种实现手写体识别
Tensorflow文本
情感分析项目
RNN实战文本情感分析项目、项目必备基础知识详解、RNN及LSTM及Gru简介、词嵌入及加载数据集、训练词向量模型、定义RNN网络结构、RNN网络训练集模型准确率

备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。

大数据中级进修课-课程大纲

学习对象

本课程适合于计算机专业,有一定Java基础、通过入学考核的未就业人士。

提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。

上课方式

在线学习

培训时间

随到随学, 详情可咨询老师   点击咨询




大数据中级进修课-课程大纲
所处阶段主讲内容技术要点学习目标
第十一阶段 :   
大数据安全
(中级班)
企业级大数据
平台安全实战课程
企业级大数据平台安全架构、Kerberos架构原理 、Kerberos认证配置 、Sentry架构和原理 、sentry授权配置 、Kerberos+sentry实战、HDFS安全控制 、Hive安全控制 、Hbase的安全控制可掌握的核心能力: 
掌握企业级常用的大数据应用解决方案;
掌握大数据平台的安全架构,不同的安全级别;
掌握大数据平台数据流转和分发的工具,加快企业级数据开发;
掌握OLAP的应用场景,根据不同的需求选择OLAP分析技术;
掌握大数据数据可视化的工具使用;
掌握目前主流的数据库TiDB的应用场景和典型案例;
掌握常用的企业级大数据平台HDP和CDH的使用和运维;
掌握企业级数仓和数据湖的建设方案和典型案例。

可解决的现实问题:
解决企业使用大数据平台存在的一些业务难点;
解决企业级数仓建设的过程和常见的问题、及解决方案;
增加企业级大数据应用实战,能够合理设计大数据平台的技术架构和数据架构  。

市场价值:
实现中级程序员的标准,甚至达到大数据的顶端人才所需的技能要求 ;
丰富的企业级案例和架构实战。
第十二阶段 :   
数据流程设计
(中级班)
数据流程
设计工具
NIFI架构和原理 、NIFI核心功能 、NIFI的Processor介绍和开发、NIFI数据流程设计实战、Kettle基础操作 、Kettle的Hadoop操作、Kettle操作Hbase、Kettle操作Hive、Kettle项目案例实战
第十三阶段:    
OLAP分析工具
(中级班)
OLAP
数据分析工具
Kylin的架构和原理、Kylin的快速入门、Kylin的核心功能和优化、Kylin的案例实战、Druid的架构和原理、Druid的核心功能、Druid的实战项目
第十四阶段:    
企业级大数据平台
(中级班)
HDP和CDH
平台安装
HDP平台安装、HDP平台的使用、HDP平台的管理和运维、CDH平台安装、CDH平台的使用、CDH平台的管理和运维
第十五阶段 :   
开发和数据可视化
(中级班)
Zeppelin和
Superset
Zeppelin原理、Zeppelin的使用、JDBC、Hive、SparkSQL、Hbase、sh、Zeppelin案例实战:数据采集 、数据发现 、数据分析 、数据可视化和协作Superset安装和使用、Superset连接HDFS、Superset连接Hive、Superset图标拖拉拽实现、Superset数据可视化实战
第十六阶段 :   
TiDB数据库
(中级班)
TiDB数据库
实战
CAP的原理、分布式存储原理、TiDB架构和原理、TiDB优化器、TiDB执行引擎、RocksDB基本架构、TiKV架构和原理、TiKV分布式事务、TiKV分布式调度、TiDB+Spark项目实战
第十七阶段:    
数据仓库和数据湖
(中级班)
数据仓库和
数据湖企业级实战
数据仓库的概念、数据模型概念、、维度模型、雪花模型、数据架构、数据分层介绍、ODS层设计、DW层设计、DWB/S层设计、DM层设计、应用层设计、基于Hadoop大数据平台实现数据仓库、企业级数据仓库案例介绍、企业级数据仓库设计的规范 、数据湖的功能、数据湖的架构、L区、C区、R区和D区的划分原则、某大型商业银行数据湖案例分享
主讲项目项目描述技术要点学习目标
《千亿级实时数据仓库》
(互联网)
千亿级实时数据仓库项目是基于垂直电商的618狂欢节全品类商品的实时仪表盘,由于当日每秒都会生成百万级订单及其支付,对时效性要求高,由于计算指标涉及订单数、订单金额相关,具备严格的Exactly Once特性。1.使用Canal采集关系型数据库结构化的交易数据;
2.使用Flume采集非结构化的用户行为数据到Kafka;
3.使用Kafka存储埋点系统产生的实时的用户行为数据;
4.使用Hive、HBase存储大规模数据;
5.基于ODS-DWB-DWS-DM-ADS的数仓分层;
6.使用Oozie调度Spark定时工作流处理和计算分层数据;
7.使用Kylin预计算DM层的数据立方体满足多维查询;
8.使用Zeppelin+Impala实现灵活的数据开发功能;
9.使用Superset实现EDW的可视化;
10.使用Flink计算实时访客相关指标;
11.使用Druid实时聚合订单和销售等相关指标;
12.使用ECharts实现实时Dashboard的可视化
可掌握的核心能力:
企业级离线和流式数仓建设的方案和思想;
企业级数据仓库建设的难点攻克;
数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想;
阿里巴巴数仓分层架构(ODS-DWB-DWS-DM-ADS)实战;
采用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计;
利用Druid时序分析数据库进行数据的存储以及指标的统计;
离线数仓hive通过扩展Kylin、HBase等框架,实现对离线数据的即席查询。

可解决的现实问题:
基于Flink和Druid实现实时数仓的解决方案,对于数据法人运营者来说,能够实时的了解数据的情况,从而做出相应的数据决策,同时也解决了数据量非常巨大隔夜分析、统计的问题;
解决了企业级海量数据存放的问题,通过数仓分层架构(ODS-DWB-DWS-DM-ADS),实现数据易用性、可用性、稳定性、可扩张性和安全性;
本项目,通过类似于阿里双十一大屏显示的功能,实现了海量数据实时分析和展现。

市场价值:
目前企业主要以离线数据仓库为主,现在一些大型的互联网公司开始使用Flink+Druid来实现实时数仓的功能,人才缺口比较大;
培养目前比较流行的技术Flink和Druid;
增强企业级项目实战的经验。
智慧学成
(在线教育)
智慧学成项目是对在线教育平台业务进行大数据统计分析的系统,对课程、用户、教育机构三个业务领域进行数据挖掘,采用企业级ETL的规范化研发流程,以及企业级数据仓库建模思想,对课程、用户、机构三个主题的不同维度进行数据分析,挖掘数据的价值,为在线教育平台运营提供参考数据依据。项目采用Hadoop、Spark主流技术栈开发,提供数据仓库、ETL、离线分析、实时分析等多种解决方案,为企业运营发展保驾护航。1、离线数据仓库分层设计解决方案
2、离线数据建模采用Spark+Hive
3、智能ETL采用Kettle、NiFi
4、ETL数据清洗采用SparkCore+SparkSQL;
5、离线数据分析采用SparkSQL+Hive
6、智能数据采集完整方案WebJs+SpringBoot+Kafka+Flume+HDFS
7、实时数据分析采用Spark Streaming+Redis;
8、大数据即时查询采用Elasticsearch+HBase;
9、大数据数据流管理采用Apache NiFi
10、业务数据报表采用vue.js+EChars+SpringBoot+MySQL
可掌握的核心能力:
数据仓库分层设计应用能力;
Hive离线数据建模开发能力;
Kettle、NiFi智能ETL应用及开发能力;
SparkCore+SparkSQL数据清洗开发能力;
SparkSQL离线数据分析开发能力;
数据采集系统设计及应用能力;
Spark Streaming+Kafka+Redis实时数据分析应用及开发能力;
Elasticsearch+HBase大数据即时查询开发能力;
Apache NiFi大数据数据流管理应用能力;
EChars+SpringBoot+MySQL业务数据报表开发能力。

可解决的现实问题:
基于业务驱动,使用Hadoop、Spark等主流大数据技术构建大数据分析架构,包含数据采集、智能收集、数据清洗、离线分析、实时分析、即时数据查询、分层多维度数据仓库、可伸缩存储架构及安全治理等。在此架构基础上利用对在线教育业务数据进行分析,包括:课程数据、学生数据、在线学习数据等,最终形成多维度统计图表、分析报表,为企业管理者提供产品优化依据及企业经营决策依据。本架构可平滑应用于金融、电商等其它业务领域,在此基础上可快速构建业务分析指标,缩短大数据项目的开发周期。

市场价值:
技术领先的大数据分析项目,紧跟市场业务步伐,解决互联网大数据分析的人才缺口;
使用主流Hadoop、Spark技术栈,培养市场需要的Spark应用开发人才;
项目涉及数据仓库、ETL、离线分析和实时分析解决方案,就业市场前景广阔。
黑马电商推荐系统
(电商推荐)
黑马电商平台个性化推荐系统项目通过采集用户购买、加购、浏览、收藏、点击等用户动态行为数据,结合用户静态属性(基于人口统计学信息)数据。通过混合推荐系统平台推荐给用户最可能购买的商品。项目依托于Hadoop大数据平台,完成了用户行为数据采集、用户数据分析、实时查询、实时展现以及通过构建推荐引擎实现离线和实时推荐,将结果通过Hbase或Redis存储推荐结果,通过线下构建用户兴趣模型、线上ABTest测试推荐结果的可行性。1.项目使用技术栈Nginx+Lua+Javascript埋点实现自定义日志采集;
2.通过Azkaban实现对离线统计和离线推荐服务的调度,设定时间实现对任务的触发调度执行;
3.离线数据通过HDFS完成存储,使用HIveSql完成离线数据统计分析;
4.实时数据通过;Flume+Kafka+SparkStreaming处理业务数据;
5.项目通过SparkSql完成业务指标数据统计分析与构建特征库;
6.不同召回推荐结果数据加载到ElasticSearch、Hbase和MongoDB等数据存储平台;
7.构建以Scala为技术实现的基于记忆推荐引擎(UserCF与ItemCF)、构建基于ALS的基于模型的协同过滤算法、基于FP-Growth的关联挖掘算法以及基于内容的推荐完成混合推荐;
8.应用SparkGraphX的SVD++算法模型实现基于图计算的推荐方式,利用Neo4j构建用户和商品的关系图示;
9.项目在文本评论方面采用Word2Vec构建词向量,基于词向量相似度推荐商品。CTR/CVR点击率预估模型部分使用GBDT算法结合独热编码得到稀疏特征,在利用逻辑斯特回归算法进行CTR点击率预估,融合排序后的结果。
可掌握的核心能力:
推荐系统设计能力、推荐系统核心算法应用能力;
Hive离线指标统计开发能力;
Azkaban实现对离线统计和离线推荐服务的调度能力;
Flume+Kafka+SparkStreaming处理业务数据能力;
SparkCore+SparkSQL数据清洗开发能力;
MongoDB、HBase进行海量数据的存储的解决方案;
Elasticsearch+HBase大数据即时查询开发能力;
SparkSql完成业务指标数据统计分析与构建特征库能力;
Zeppelin整合SparkSql及PySpark业务交互统计能力;
UserCF&ItemCF基于记忆协同过滤召回推荐算法能力;
LFM&ALS基于模型的协同过滤召回推荐算法能力
Apriori和FP-Growth的关联挖掘算法能力;
SparkGraphX的SVD++算法模型实现基于图计算的推荐能力;
基于SparkMllib的GBDT+LR推荐结果排序算法模型能力;
Xgboost4J(Xgboost On Spark)算法应用改进排序模型;
基于Tensorflow的Wide&Deep与DeepFM排序模型应用能力;
应用SparkGraphX+Neo4J进行关系挖掘能力。

可解决的现实问题:
基于多屏多品类电商业务推荐场景驱动,使用Hadoop、Spark等主流大数据技术构建大数据分析架构,包含数据采集、智能收集、数据清洗、离线分析、实时分析等功能,在此架构基础上的推荐业务通过主流推荐算法、机器学习和深度学习算法完成智能商品推荐。本架构可平滑应用于金融、电信等其它行业推荐业务领域,在此基础上可快速构建业务分析指标,缩短大数据和人工智能整合项目的开发周期。

市场价值:
技术领先的推荐系统核心项目,紧跟市场业务步伐,解决互联网大数据分析与建模方面的人才缺口;
基于主流Hadoop、Spark技术栈,培养市场需要的Spark机器学习与数据挖掘方向应用开发人才;
项目使用主流机器学习和深度学习算法应用于推荐场景,解决市场上大数据和人工智能综合应用型人才的需求问题。
4、项目涉及主流的推荐系统架构设计和推荐算法核心解决方案,就业市场前景广阔。
《电信信号强度诊断》
(电信行业)
1、本项目基于某公司开发的手机测速软件采集的数据对用户的手机网速、上行下行流量,网络制式、信号强度等信息进行宏观分析。
2、本项目总体分为三大模块,分别为数据导入模块、数据处理模块、报表生成模块、地图处理和渲染。
1)数据导入模块:
数据加载模块主要用于在传统关系型数据库与大数据平台之间进行数据传输,将mysql数据库内的同步到大数据平台中。实时新数据首先进入mysql中。
除此之外,该平台数据导入模块还负责数据原始文件、本地wifi文件的自动导入功能。
2)数据处理模块:
数据处理模块主要用于对已经加载到大数平台的数据根据实际业务需求进行更深入的处理、分析、运算、加工。
3)报表生成模块:
报表生成模块主要用于对已经被大数据平台处理过的数据进行图形化转化、界面化的展示。以便于领导比较简单的、直观的了解经处理后的数据所传递的信息。
4)地图处理和渲染:
百度和高德地图的LBS服务使用,地图网格的切分思想,地图热力图的显示,街景的实现,大数据基于地图的安防案例实现
1.使用Hive实现数据仓库的功能;
2.Phoenix on Hbase实现类似SQL的查询;
3.Hbase二级索引的创建;
4.使用Azkaban实现任务的调度;
5.Canal解析Mysql的日志数据,实现MySql数据的增量抽取;
5.使用Kafka实现数据的发布和订阅;
6.使用SparkStreaming+Kafka实现信号的实时计算;
7.百度地图LBS服务的使用;
8.掌握地图网格的划分原则和思路。
可掌握的核心能力: 
熟练使用hive外部表;
熟练使用hive内部表;
熟练使用Hive  reflect;
熟练使用Hive自动化脚本;
熟练使用Phoenix 数据加载;
熟练使用 Hive内置函数;
掌握Hive自定义UDF;
掌握Hive  reflect;
掌握Phoenix 创建二级索引;
掌握Phoenix创建危机索引原则、思路;
掌握Azkaban工作流配置;
掌握Azkaban工作流调度使用;
掌握Canal解析Mysql日志;
掌握kafka生产数据;
掌握SparkStreaming消费kafka数据的方式;
掌握SparkStreaming实时分析的代码实现过程;
掌握信号强度分析的实现思路;
掌握网络质量分析的实现思路;
掌握热门APP、手机的计算思路。

可解决的现实问题:
将大数据相关技术与地图整合,结合百度地图,实现可视化信号强度展示,可以清晰的识别出各家运营商的信号强度;
结合街景图、可以计算用户八个方向的信号强度、热门APP、热门系统等;
了解热门手机、热门APP的真实地理位置分布。

市场价值: 
可以清晰识别出各个运营商在某一区域的信号强度,为运营商提供才考价值;
掌握用户使用APP的习惯;
掌握APP使用的地理位置分布;
掌握热门APP流量的地理位置分布;
掌握热门手机的地理位置分布。
《企业级360°全方位用户画像》
(电商)
1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群;
2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式;
3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和一对一服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。
1.数据迁移工具Sqoop ;
2.分布式存储和计算平台Hadoop ;
3.机器学习库Spark MLlib;
4.SQL on Hadoop方案Spark SQL ;
5.准实时计算Spark Streaming;
6.分布式NoSQL数据库HBase ;
7.分布式索引和全文检索工具Solr Cloud;
8.工作流调度引擎Oozie。
可掌握的核心能力: 
通过Sqoop迁移业务数据到HBase ;
基于数据内容确定业务场景并使用SparkMLlib建模; 
建立标签及其规则关联算法模型 ;
确定标签更新周期生成Oozie的定时工作流执行;
YARN执行作业完成后写入画像结果数据到HBase和Solr ;
通过RestAPI查询Solr并实时生成用户画像结果展示;
标签的分类;
组合标签的创建和RFM模型使用;

可解决的现实问题:
用户画像是大数据应用的底层核心的服务,例如:推荐、营销、千人千面、个性化推荐和精准营销等应用都依赖于用户画像服务;
通过对用户进行画像,实现不同用户的个性化服务,提高企业的营收。

市场价值: 
使用比较广泛,在企业里面,基本只要有大数据平台,就会有基础服务用户画像;
此项目可以举一反三,应用到其他的行业里面,如:金融、电信和航空等;
行业绝对领先的大数据项目实战。

备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。

基础差? 可免费学基础班

申请试读名额

基础过关? 可直接就读就业班

基础测试

大数据学科项目介绍

  • 企业级360°全方位用户画像

    项目简介:

    1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。
    2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
    3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和一对一服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

    项目特色:

    1、大型电商真实的用户画像项目,真实的业务场景;
    2、自义定SparkSQL DataSource插件;
    3、插件化集成Spark的ML/Mllib建模;
    4、自定义Oozie定时工作流自动构建;
    5、用户标签的自动化生成;
    6、支持对人对物的秒级画像生成;
    7、各种企业级组合标签设计的思想和方案(如:高富帅、羊毛党等组合标签实战);
    8、RFM(客户价值模型)模型的应用实战。

  • 千亿级实时数据仓库

    技术要点:

    1、使用Canal采集关系型数据库结构化的交易数据;
    2、使用Flume采集非结构化的用户行为数据到Kafka;
    3、使用Kafka存储埋点系统产生的实时的用户行为数据;
    4、使用Hive、HBase存储大规模数据;
    5、基于ODS-DWB-DWS-DM-ADS的数仓分层;
    6、使用Oozie调度Spark定时工作流处理和计算分层数据;
    7、使用Kylin预计算DM层的数据立方体满足多维查询;
    8、使用Zeppelin+Impala实现灵活的数据开发功能;
    9、使用Superset实现EDW的可视化;
    10、使用Flink计算实时访客相关指标;
    11、使用Druid实时聚合订单和销售等相关指标;
    12、使用ECharts实现实时Dashboard的可视化

    项目特色:

    1、企业级离线和流式数仓建设的方案和思想;
    2、企业级数据仓库建设的难点攻克;
    3、数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想;
    4、阿里巴巴数仓分层架构(ODS-DWS-DWB-DM-ADS)实战;
    5、实时指标计算方面,利用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计;
    6、利用druid时序分析数据库进行数据的存储以及指标的统计;
    7、离线部分除了使用传统数仓技术如hive外,我们加入kylin,hbase等框架,实现了数据查询的低延迟,可以利用即席查询对离线数据进行快速高效的查询分析;
    8、企业级真实的数据仓库建设全部的核心流程和技术。

  • 黑马电商推荐系统

    项目简介:

    黑马电商平台个性化推荐系统通过采集用户购买、加购、浏览、收藏、点击等用户动态行为数据,结合用户静态属性(基于人口统计学信息)数据。通过混合推荐系统平台推荐给用户最可能购买的商品。项目依托于Hadoop大数据平台,完成了用户行为数据采集、用户数据分析、实时查询、实时展现以及通过构建推荐引擎实现离线和实时推荐,将结果通过Hbase或Redis存储推荐结果,通过线下构建用户兴趣模型、线上ABTest测试推荐结果的可行性。

    技术栈:

    1、数据采集:ngnix+lua+javascript;
    2、数据存储:HDFS、HBASE、Redis、MongoDB、Mysql;
    3、数据处理:HiveSql、SparkSql、SparkStreaming;
    4、数据统计计算:Hive、SparkSql;
    5、数据建模:SparkML、SparkMLLib、SparkGraphX、TensorflowOnSpark;
    6、数据展示:Web(Vue.js)、Neo4j;
    7、任务调度:Azkaban;
    8、搜索服务:ElasticSearch。

    项目特色:

    1、使用Spark-ALS算法训练模型和超参数调优,通过模型的predict方法预测推荐结果,通过Rmse比较推荐结果。
    2、通过Spark-FPGrowth算法训练模型和超参数调优,获取购买行为类型的样本数据,从数据中形成关联挖掘所需的数据,算法通过不同的置信度和支持度超参数设定,调整算法模型。
    3、项目构建基于Scala基础的UserCF、ItemCF的基于记忆的推荐引擎,得到推荐结果相关表,即为初始推荐结果。
    4、项目应用SparkGraphX的SVD++算法模型实现基于图计算的推荐方式,利用neo4j构建用户和商品的关系图示。
    5、项目扩展Tensorflow技术对CTR排序中的FM、FFM、DeepFM、Wide And Deep模型提取二阶及高阶特征完成排序。
    6、推荐结果从MongoDB和ElasticSearch中将离线推荐结果、实时推荐结果、内容推荐结果混合。

  • 电信信号强度诊断

    项目简介:

    1、本项目基于谋公司开发的手机测速软件采集的数据对用户的手机网速、上行下行流量,网络制式、信号强度等信息进行宏观分析。
    2、本项目总体分为三大模块,分别为数据导入模块、数据处理模块、报表生成模块、地图处理和渲染。
    1)数据导入模块: 数据加载模块主要用于在传统关系型数据库与大数据平台之间进行数据传输,将mysql数据库内的同步到大数据平台中。实时新数据首先进入mysql中。除此之外,该平台数据导入模块还负责数据原始文件、本地wifi文件的自动导入功能。
    2)数据处理模块: 数据处理模块主要用于对已经加载到大数平台的数据根据实际业务需求进行更深入的处理、分析、运算、加工。
    3)报表生成模块: 报表生成模块主要用于对已经被大数据平台处理过的数据进行图形化转化、界面化的展示。以便于领导比较简单的、直观的了解经处理后的数据所传递的信息。
    4)地图处理和渲染: 百度和高德地图的LBS服务使用,地图网格的切分思想,地图热力图的显示,街景的实现,大数据基于地图的安防案例实现。

    项目特色:

    1、调用高德或者百度的API,实现区域热点分析;
    2、地图网格的切分思想和实现;
    3、大数据技术+多维地图展现(包括地图、卫星图、三维图);
    4、信号强度热图使用多方案展现,并与大数据及时方案完美融合;
    5、信号强度矩阵图(矩阵计算),每个独立的矩形都要独立进行计算、一次查询至少需要计算长*宽次(25*12),并在地图上渲染,对于查询的时效性要求极高;
    6、以某一用户为中心,计算用户八个方向的信号质量、系统、APP等并以街景图形式展现。难点在于计算用户八个方向的数据;
    7、大数据技术和地图完美的整合。

教学服务

  • 每日测评

    每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分,老师会根据学员反馈进行分析,对学员吸收情况调整授课内容、课程节奏,最终让每位学员都可以跟上班级学习的整体节奏。

  • 技术辅导

    为每个就业班都安排了一名优秀的技术指导老师,不管是白天还是晚自习时间,随时解答学员问题,进一步巩固和加强课上知识。

  • 学习系统

    为了能辅助学员掌握所学知识,黑马程序员自主研发了6大学习系统,包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。

  • 末位辅导

    末位辅导队列的学员,将会得到重点关心。技术辅导老师会在学员休息时间,针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队,真正落实不抛弃,不放弃任何一个学员。

  • 生活关怀

    从学员学习中的心态调整,到生活中的困难协助,从课上班级氛围塑造到课下多彩的班级活动,班主任360度暖心鼓励相伴。

  • 就业辅导

    小到五险一金的解释、面试礼仪的培训;大到500强企业面试实训及如何针对性地制定复习计划,帮助学员拿到高薪Offer。