首页 > 微专业 > 所有微专业 > 课程详情

大数据开发工程师

大数据开发工程师微专业为网易出品，联合浙江大学、云展科技超一线讲师团队打造。课程设计以企业最真实的大数据架构和案例为出发点，强调将思维与实践相结合，项目实操接入网易云平台，帮助学员掌握大数据技能。

大数据开发工程师

开课时间：2018-12-28
课程目标：构建复杂大数据分析系统

立即报名

课程概况

大数据开发工程师微专业，为网易出品，联合浙江大学、云展科技超一线讲师团队打造。课程提供「完整Hadoop生态组件+真实网易案例+资深工程师经验+网易云私有集群在线实操+全SSD硬盘支持」等教学服务，让你3个月进阶为大数据开发工程师。

适用人群

1.具备Java基础语言的应用，2.具备Linux常用基本命令使用的能力。

课程安排

01 大数据技术概论

本课程从大数据技术产生的历史背景出发，对大数据技术的起源、发展、分类以及应用进行全景式的介绍。

课程关键词：1.大数据起源和发展形态、2.大数据管理系统架构、3.大数据应用。

1 大数据技术的起源和发展

1.1课程大纲

1.2大数据技术的起源

1.3互联网泡沫：大数据技术的发端

1.4 重识大数据技术

2 大数据技术与相关领域的关系

2.1大数据与云计算

2.2大数据与区块链

2.3大数据与人工智能

3 大数据管理技术概述

3.1大数据管理技术概述

3.2大数据存储技术

3.3大数据事务处理技术

3.4大数据查询处理技术

3.5 人机交互技术

4 大数据应用

4.1“双十一”与海量支付

4.2商品推荐：亚马逊的秘密武器

4.3流立方与金融反欺诈

4.4关联分析与投资组合

4.5群组分析：洞悉人们的行为趋势

02 数据平台综述

本课程从原理出发，逐步拆解和梳理大数据平台的设计脉络，带给学员不一样的大数据学习体验。从大数据平台架构的演变、大数据平台的典型流程入手解析什么是大数据平台。

从CAP原理、C10K问题，ACID vs BASE等方面分析大数据平台的设计考量；再从数据采集、数据存储、数据计算等方面以理论加实际案例的课程形式帮助学员深刻的理解大数据平台的应用。

课程关键词：1.大数据平台设计、大数据采集、存储、计算。2.理论加实际案例。

1 问题回顾

1.1课程介绍

1.2数据管理技术的演化

1.3学习的方法论

2 数据平台设计理念

2.1分布式系统可扩展性

2.2分布式系统CAP理论

2.3用分布式理论扩展关系数据库

2.4BASE原则和NoSQL系统

2.5小结

3 简单说一说选型

3.1粗识大数据平台

03 数据存储：HDFS

本课程主要讲解的大数据的核心技术：数据存储，主要内容涵盖：分布式文件系统、常用日志文件系统结构、Hadoop安装与运行环境测试、HDFS读写操作、海量数据存储常见解决方案等，旨在帮助学员建立数据存储知识体系结构，掌握常用数据存储方式，能够编写常用读写操作代码，并具备海量数据处理框架设计能力。

1 基础架构

1.1课程介绍

1.2背景

1.3HDFS架构

1.4HDFS读写

1.5副本放置策略

2 部署配置

2.1部署安装

2.2部署实操

3 管理使用

3.1HDFS管理与使用

4 高级内容

4.1HDFS高可用

4.2HDFS联邦

4.3HDFS安全

4.4压缩与分片

5 异常处理

5.1异常处理

04 日志解析及计算：MR

本课程从MapReduce的基本原理、运行流程到编程实战、性能调优等帮助学员深入全面的学习应用MapReduce的原理，再通过实际案例帮助学员进阶实际操作，从理论到实操带领大家全面掌握MapReduce。

课程关键字：MapReduce 日志解析。

1 MapReduce的基本原理和运行流程

1.1 MR的应用场景

1.2 MR的原理和运行流程

1.3 编写一个MR程序

2 MR编程实战

2.1 Hadoop的IO模型

2.2 完整编写Map和Reduce

2.3 灵活使用Configuration

2.4 精准控制Shuffle过程

2.5 MR程序的输入

2.6 MR程序的输出

2.7 简单好用的计数器

3 案例实操

3.1 MR实现关联操作

4 MR性能调优

4.1 MR参数调优

4.2 数据倾斜

05 数据获取和预处理：Flume

随着计算机技术已遍布生活各个领域，我们已经进入一个信息爆炸的时代。为了解决海量数据的问题，众多大数据计算和分析技术应运而生。

本课程首先从实际操作出发，就如何对分布式服务器的日志文件进行实时收集，并将其分流到不同存储介质进行详细说明；其次通过对Flume的设计原理、安装部署等方面系统的帮助学员了解Flume的理论、实际操作及应用；最后通过实际帮助学员帮助学员更深刻理解Flume。

课程关键字：1.海量日志数据、2.采集、聚合和传输系统。

1 日志及日志收集系统

1.1课程介绍

1.2日志及日志收集系统

2 Flume设计原理

2.1Flume Agent组成

2.2Flume支持的组件类型

2.3Flume基本配置

3 Flume安装部署

3.1Flume-ng部署

4 Flume配置示例

4.1Flume配置示例

5 实战

5.1Flume高级配置

5.2构建复杂日志收集系统

06 结构化查询：Hive

本课程主要讲解当前大数据领域主流数据仓库Hive的原理及使用，课程通过MapReduce的抽象化技术、Hive系统架构、Hive安装及调试、HiveSQL基础语法等基础理论，让学员能够全面了解Hive 是如何使用的，然后通过一个实战案例“UV查询”，带领大家在掌握理论的基础上，学会具体使用Hive。

1 从MR到Hive

1.1Hive解决了什么问题

1.2Hive擅长什么

2 Hive 系统介绍

2.1Hive结构与数据仓库

2.2数据模型与元数据

3 Hive的安装及调试

3.1Hive安装与配置

3.2创建和管理Hive中的数据库

4 Hive查询语法

4.1写一个基本的查询语句

4.2子查询和关联表操作

4.3使用简单函数

4.4使用聚合函数

4.5利用正则表达式精确提取信息

4.6窗口函数的使用

4.7“行转列”与“列转行”

4.8用户自定义函数(UDF)的使用

5 案例

5.1Hive优化案例

07 数据获取和预处理：Sqoop

本课程将从实战触发，介绍sqoop的应用场景，原理，架构和使用方式，让你轻松具备数据库与大数据平台间的数据同步能力。

课程首先基于实际案例与理论数据深度解析静态系统的数据，其次全面系统的讲解了sqoop的安装及配置、架构分析以及sqoop的语法介绍，旨在帮助学员建立数据传送知识体系结构，掌握常用数据传送方式，并具备海量数据处理框架设计能力。最后列举网易云课堂sqoop案例帮助学员更精准的了解sqoop的应用。

课程关键词：1.常用数据传送、2.海量数据处理。

1 来自于业务系统的数据

1.1课程介绍

1.2业务系统数据

1.3数据同步与传统数仓

2 Sqoop功能与架构

2.1sqoop功能与架构

2.2数据划分

3 sqoop安装及配置

3.1java, hadoop-client等基础依赖安装

3.2sqoop服务安装

4 sqoop语法介绍

4.1语法分析

5 案例

5.1案例

08 大数据调度框架：Azkaban

无论是数据开发平台还是个人，任务调度系统是极其核心的一环。本课程深度解析开源调度系统azkaban，从系统介绍、安装配置、再到工作流调度实战、以及改进思路，全面的介绍任务调度系统的整体架构，一线案例的讲解加以实际演练帮助大家全方位掌握大数据调度系统。

课程关键词：1.任务调度系统、2.实际项目讲解、3.实际操作演练。

1 任务调度基本概念

1.1课程介绍

1.2调度系统背景知识

2 Azkaban系统介绍

2.1架构组件和任务流程讲解

3 Azkaban的安装和配置

3.1代码下载、编译、部署

3.2插件的安装：hadoopJava、Spark等

4 Azkaban工作流调度实战

4.1具体任务编写要点和 DAG设计

4.2不同调度参数详解

5 Azkaban进阶

5.1如何实现web高可用

5.2如何提高任务可用性

5.3如何增加新的插件类型

09 Scala编程基础

Scala是一门多范式的编程语言，运行在Java虚拟机上，兼容现有的Java程序。目前很多项目比如Spark，Kafka都使用Scala编写。Scala语言表述逻辑简单清晰，但是入门门槛比较高，学习难度大。这门课将带大家学习这门语言，为今后的编程和阅读源码打下基础。关键词：scala，编程语言。

1 Scala实战入门

1.1 安装Scala开发环境

1.2 Scala常用类型介绍

1.3 值与变量的声明

1.4 Scala函数与方法的定义和使用

1.5 默认参数、带名参数及变长参数

1.6 动手编写条件表达式

1.7 循环表达式与For循环的使用

1.8 异常处理

2 Scala面向对象入门实战

2.1 类的定义：属性与方法

2.2 不同的构造

2.3 object对象

2.4 apply方法

2.5 方法重写与字段重写

2.6 抽象类

2.7 trait

2.8 case class

2.9 模式匹配

3 Scala集合类详解

3.1 集合

3.2 序列

3.3 可变列表与不可变列表

3.4 集合操作

4 Scala高级特性实战

4.1 隐式转换

4.2 隐式参数

4.3 隐式类

10 Spark框架教学

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。

1 spark基础

1.1Spark概述

1.2Spark安装

1.3什么是RDD？

1.4RDD的创建方式

1.5RDD基本操作

2 df与ds的基础

2.1DataSet与DataFrame概述

2.2DataSet的创建方式

2.3DataSet基本操作

2.4DataFrame的创建方式

2.5DataFrame基本操作

3 SparkSQL

3.1SparkSQL前世今生

3.2SparkSQL使用

3.3UDF开发

3.4SparkSql调优

4 Spark调优

4.1共享变量（广播变量，累加变量）

4.2持久化

4.3使用高性能的算子

4.4其他

11 大作业：网站分析大数据框架调度

实战大作业课程将结合网易&互联网等一线产品真实案例，帮助学员系统完善的消化前期课程，利用网易公有云蜂巢实操平台实现学习的输出化。

实战大作业：网站分析大数据框架调度作业

【基于网易云私有集群环境，使用网易提供的脱敏数据库及日志】

第一步：学员通过flume将日志同步到hdfs，mr解析日志到hive表

第二步：数据库通过sqoop同步到hive表，按照给定的统计口径，将结果同步到mysql数据库或者hdfs文件系统

第三步：通过azkaban配置任务依赖，至少保证3天的稳定运行

第四步：梳理设计文档并将代码打包上传提供评审

>>关于平面设计学习日记网: “平面设计学习日记网（xxriji.cn）”是一个发布分享平面设计自学教程和分享设计经验的学习平台。为零基础自学平面设计的小伙伴提供快速入门的资源参考。让学习有路可循，成长更加高效。
>>平面设计教程资料推荐: 平面设计自学视频教程：市面上最为系统全面的平面设计自学教程体系：http://www.xxriji.cn/career/9.html; 设计师必备的阅读书单：百万设计师热心推荐的设计类图书目录。http://www.xxriji.cn/books

点赞的最后都成了大神>>

微专业人气：-次

大数据开发工程师

课程概况

适用人群

课程安排

01 大数据技术概论

1 大数据技术的起源和发展

2 大数据技术与相关领域的关系

3 大数据管理技术概述

4 大数据应用

02 数据平台综述

1 问题回顾

2 数据平台设计理念

3 简单说一说选型

03 数据存储：HDFS

1 基础架构

2 部署配置

3 管理使用

4 高级内容

5 异常处理

04 日志解析及计算：MR

1 MapReduce的基本原理和运行流程

2 MR编程实战

3 案例实操

4 MR性能调优

05 数据获取和预处理：Flume

1 日志及日志收集系统

2 Flume设计原理

3 Flume安装部署

4 Flume配置示例

5 实战

06 结构化查询：Hive

1 从MR到Hive

2 Hive 系统介绍

3 Hive的安装及调试

4 Hive查询语法

5 案例

07 数据获取和预处理：Sqoop

1 来自于业务系统的数据

2 Sqoop功能与架构

3 sqoop安装及配置

4 sqoop语法介绍

5 案例

08 大数据调度框架：Azkaban

1 任务调度基本概念

2 Azkaban系统介绍

3 Azkaban的安装和配置

4 Azkaban工作流调度实战

5 Azkaban进阶

09 Scala编程基础

1 Scala实战入门

2 Scala面向对象入门实战

3 Scala集合类详解

4 Scala高级特性实战

10 Spark框架教学

1 spark基础

2 df与ds的基础

3 SparkSQL

4 Spark调优

11 大作业：网站分析大数据框架调度

实战大作业：网站分析大数据框架调度作业

相关微专业