云计算架构与大数据分析(Hadoop)
主办单位:上海普瑞思管理咨询有限公司 上海创卓商务咨询有限公司
日期地址:2015年02月07-12日 北京
培训费用:4500元/人(含培训费、资料费、午餐费及茶点等)
培训目标:
本课程以大数据架构与案例为驱动,采用一个完整地案例贯穿整个课程,让学员体验大数据架构的企业价值。在课程中学员将被赋予企业架构师角色,通过剖析企业对大数据的主要需求,使学员感悟大数据架构设计的过程与价值。具体课程目标包括:
1.了解云计算的发展历史
2.掌握云计算的实践应用
3.学习云计算的核心技术
4.通晓云计算的商业价值。
5.全面掌握Hadoop的架构原理和使用场景;
6.全程项目实战训练;
7.彻底掌握使用Hadoop进行MapReduce程序开发;
8.熟悉分布式计算领域的常用算法;
9.掌握Hive、HBase使用与优化技巧。
课程大纲:
(第一专题:云计算架构)
日程授课主题课程安排
第一天云计算概述云的理想
云的挑战
发展的趋势
云是什么
不同工作负载适用不同的云
选择合适的云平台
几个云应用案例
我们身边的云
云架构云多层架构视图
IaaS、PaaS与SaaS的定位与异同
云平台的发展现状
云数据中心技术架构
IAAS云层的原理与应用IaaS的基础:虚拟化
虚拟化相关技术
Power云部署方案介绍
VMWare云部署方案介绍
OpenStack云部署方案介绍
SONAS云存储方案介绍
应用实例
第二天PaaS云层的原理与应用PaaS的架构原理
基于WebSphere的PaaS设计实践
SaaS云层的原理与应用SaaS的架构原理
一个公有云SaaS的设计实践
云计算的性能管理与容量规划什么是性能容量管理
性能容量管理参考案例
压力测试基本理论
系统性能设计与调优
第三天大数据云的原理与架构存储子系统
传统文件系统
松耦合网络文件系统
共享存储文件系统
基于对象的存储子系统
大数据存储子系统
GoogleGFS
FacebookHaystack
AmazonDynamo
YahooPNUTS
GoogleBigTable
云存储服务
AmazonSimpleStorageService
GoogleStorageforDevelopers
(第二专题:大数据分析与Hadoop开发)
日程模块单元模块单元
第四天第1个主题:Hadoop的来源和动机
1.传统大规模系统存在的问题
2.对一种新的解决方案的需求
3.Hadoop应用案例解析
4.Hadoop版本介绍
5.Hadoop与传统分布式环境的区别
第2个主题:Hadoop安装和部署准备
1.Hadoop系统模块组件概述
2.Hadoop试验集群的部署结构
3.Hadoop安装依赖关系
4.Hadoop生产环境的部署结构
5.Hadoop集群安装和部署
第3个主题:Hadoop组件详解
1.HadoopHDFS基本结构
2.HadoopHDFS副本存放策略
3.HadoopNameNode详解
4.HadoopSecondaryNameNode详解
5.HadoopDataNode详解
6.HadoopJobTracker详解
7.Mapper
8.Reducer
9.API使用Eclipse进行快速开发
10.新MapReduceAPI
第4个主题:Hadoop核心代码剖析
1.HadoopMapper类核心代码剖析
2.HadoopReducer类核心代码剖析
第5个主题:HDFS分布式文件系统编程
1.HadoopHDFS剖析
2.HadoopNameNode剖析
3.HadoopDataNode剖析
4.hadoopI/O操作
5.使用HadoopHDFSAPI对HDFS编程
第五天第1个主题:HadoopMapReduce
1.HadoopJobTracker剖析
2.HadoopTaskTracker剖析
3.Hadoop任务提交流程剖析
第2个主题:HadoopMapReduceStreaming编程
1.HadoopStreaming和JavaMapReduceApi差异
2.使用MapReduce实现数据库功能
第3个主题:MapReduce分布式程序
1.MapReduce流程
2.剖析一个MapReduce程序
3.基本MapReduceAPI概念
4.驱动代码
第4个主题:HadoopMapreduce高级编程
1.ToolRunner介绍
2.使用MRUnit进行测试
3.利用Combiners来减少中间数据
4.使用Configure和Close方法来进行Map/Reduce设置和关闭
5.编写Partitioner来优化负载平衡
6.直接访问Hadoop分布式文件系统(HDFS)
7.使用分布式缓存(DistributedCache)第5个主题:MapReduce的优化
1.map优化
2.reduce优化
3.小文件优化
第6个主题:MapReduce的任务调度
1.Queue调度的使用
2.公平调度的使用
3.能力调度的使用
第7个主题Hadoop生态系统介绍
分布式管理组件-Zookeeper
分布式数据仓库-Hive
分布式数据库-HBase
数据导入导出-Sqoop
工作流管理-Ozzie
Hadoop数据仓库-Hive
Hive基础
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用
Hadoop/Hive仓库数据数据流
第六天Hadoop数据仓库-Hive
HiveCli的基本用法
HQL基本语法
自行编写数据库与Hadoop相互ETL工具的思路
Hadoop分布式数据仓库-HBase
Hbase概念与架构
hbase核心知识点
hbase安装、部署
HBase配置优化综述
表设计优化相关参数
监控工具使用方法及注意事项
常见异常现象级处理方法
培训师资:
朱永春
十余年IT行业经验,IBM企业数据分析与大数据专家,数据中心系统架构设计,性能管理与容量评估专家,主要专业特长包括基础架构云平台设计、服务器及存储虚拟化、数据库优化、性能管理、容量评估等领域。具有丰富的教学和实践经验,对IT职业培训有深刻的理解。曾参与多家大型银行系统架构设计,在高可用性高性能大容量系统领域的虚拟化和大数据处理有深入的研究,能够结合实际,在复杂的应用环境中选择适合的分析技术来降低运维风险、缩短停机时间、提高系统及数据库性能。多次全国巡讲。授课过程理论与实践并重,深入浅出,讲课诙谐幽默、气氛活跃,深受广大学员好评。
钱兴会大数据专家。在电信、电力、金融行业从事Java开发和架构设计的工作;资深云计算研发工程师。作为项目的主要成员和负责人参与并领导完成了多个大型复杂项目,并成功应用于行业解决方案,如海量数据匹配系统、电力行业实时数据采集分析系统等。设计并实现了实时索引系统-云搜,成功应用与某国企知识库系统。并可应用与互联网行业的搜索等应用。完成多个云计算解决方案的架构,涉及到金融行业海量数据分析与数据处理系统、海量日志分析系统、电力用电信息统计系统等,获得业界认可。
在线报名