Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播 第十一期主题:Spark 大数据处理最佳实践讲师:简锋,阿里云 EMR 数据开发平台 负责人内容框架:大数据概览如何摆脱技术小白Spark SQL 进修框架EMR Studio 上的大数据最佳实践直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接、大数据概览大数据处理 ETL (Data  → Data)大数据分析 BI   (Data  →  Dashboard)机器进修    AI   (Data  →  Model)二、如何摆脱技术小白什么是技术小白?只懂表

开源大数据社区 & 阿里云 EMR 系列直播 第十一期

主题:Spark 大数据处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:

大数据概览如何摆脱技术小白Spark SQL 进修框架EMR Studio 上的大数据最佳实践

直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247072

一、大数据概览

大数据处理 ETL (Data  → Data)大数据分析 BI   (Data  →  Dashboard)机器进修    AI   (Data  →  Model)

Spark 大数据处理最佳实践

二、如何摆脱技术小白

什么是技术小白?

只懂表面,不懂本质

比如:只明白参考别人的 Spark 代码,不明白 Spark 的内在机制,不明白如何调优       Spark Job

摆脱技术小白的药方

明白运行机制学会设置装备摆设学会看 Log

明白运行机制:Spark SQL Architecture

Spark 大数据处理最佳实践

学会设置装备摆设:如何设置装备摆设 Spark App

设置装备摆设 Driver

 • spark.driver.memory

 • spark.driver.cores

设置装备摆设 Executor

 • spark.executor.memory

 • spark.executor.cores

设置装备摆设 Runtime

 • spark.files

 • spark.jars

设置装备摆设 DAE………….

 

 参考网址:https://spark.apache.org/docs/latest/configuration.html

学会看 Log:Spark Log

Spark 大数据处理最佳实践

三、Spark SQL  进修框架

Spark SQL 进修框架( 结合图形/几何)

1. Select Rows 

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

2. Select Columns 

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

3. Transform Column

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

4. Group By / Aggregation 

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

5. Join 

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

Spark SQL 执行计划

1. Spark SQL – Where

Spark 大数据处理最佳实践

2. Spark SQL – Group By

Spark 大数据处理最佳实践

3. Spark SQL – Order by

Spark 大数据处理最佳实践

四、EMR Studio 实践

EMR Studio 特性:

兼容开源组件支持连接多个集群适配多个较量争论引擎交互式开发 + 功课调理无缝跟尾适用多种大数据应用场景较量争论存储分离

1. 兼容开源组件

EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

Spark 大数据处理最佳实践

2. 支持连接多个集群

一个 EMR Studio 可以连接多个 EMR 较量争论集群,您可以很方便地切换较量争论集群,提交功课到不同的较量争论集群上运行。

Spark 大数据处理最佳实践

3. 适配多个较量争论引擎

自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个较量争论引擎,无需复杂设置装备摆设,多个较量争论引擎间协同工作

Spark 大数据处理最佳实践

4. 交互式开发 + 功课调理无缝跟尾

Notebook + Airflow : 无缝跟尾开发环节和生产调理环节

利用交互式开发模式可以快速验证功课的正确性.在 Airflow 里调理 Notebook 功课,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

Spark 大数据处理最佳实践

5. 适用多种大数据应用场景

大数据处理 ETL交互式数据分析机器进修实时较量争论

6. 较量争论存储分离

所有数据都保存在 OSS 上,包括:

     • 用户 Notebook 代码

     • 调理功课 Log

即使集群销毁,也可以重建集群轻松恢复数据

Spark 大数据处理最佳实践

EMR Studio  Demo 演示:

参考文档:https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

⭐具体产品介绍和演示 ,可以点击以下链接直接观看回放:

   https://developer.aliyun.com/live/247072

给TA打赏
共{{data.count}}人
人已打赏
AI

Hologres揭秘:深度解析高效率分布式盘问引擎

2021-8-11 15:09:00

AI

数仓架构的持续演进与发展 — 云原生、湖仓一体、离线及时一体、SaaS模式

2021-8-11 15:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索