更多 选择语言
< 返回主菜单
PG电子·(中国)官方网站 PG电子·(中国)官方网站

基于英特尔® 傲腾? 长期内存200系列的Spark计划实践

摘要

  英特尔® 傲腾? 长期内存是一款革命性的长期内存产品,补齐了DRAM与磁盘之间的需求缺口,重构内存/存储条理架构,集大容量、经济性和长期性于一身,资助用户优化数据中心基础设施,满足大数据剖析、数据库、云与虚拟化、漫衍式存储等多种应用场景需求。为了资助用户通过傲腾长期内存来实现应用立异优化,助力企业业务系统实现性能突破,pg电子官网宣布了基于英特尔® 傲腾? 长期内存的多种场景计划,本计划是基于英特尔® 傲腾? 长期内存200系列的Spark应用计划。

配景介绍

  Spark 是一种快速、通用、可扩展的大数据剖析引擎,目前已经生长成为一个包括多个子项目荟萃的生态系统。Spark 基于内存盘算,提高峻数据情况下数据处理的实时性,同时提供高容错性和高可伸缩性,用户可以将 Spark以集群的形式安排在大宗廉价的硬件之上,满足低本钱下高性能盘算需求。

  Spark 搭载了高效的 DAG 执行引擎,可以通过基于内存来高效处理数据流。与Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快100倍以上,基于硬盘的运算也要快10 倍以上。Spark 提供了统一的解决计划,支持批处理、交互式盘问(Spark SQL)、实时流处理(Spark Streaming)、机械学习(Spark MLlib)和图盘算(GraphX),这些差别类型的数据处理都可以在同一个应用中无缝使用。

  Spark拥有众多的优势,广泛应用于云盘算、物联网、机械学习等前沿领域的超大型数据集快速剖析处理,并获得众多大数据公司的支持。

  挑战:本钱限制了内存容量扩展

  Spark的内存盘算能力受限于效劳器自身关于内存容量的支持,这导致Spark作业执行期间经常泛起内存缺乏,中间数据落磁盘,Spark内存盘算的性能优势无法发挥的情况。

  古板的解决计划是利用Spark的漫衍式体系结构,使其在集群上运行,以解决内存缺乏的问题,为了扩展内存,企业将不得不安排更多的效劳器,这显然增加了企业的本钱压力。

解决计划介绍

  英特尔®傲腾?长期内存立异性解决计划新增内存扩展方法专为突破效劳器内存容量限制而优化,补齐了DRAM内存与磁盘之间的需求缺口,打造高性能、大容量的长期内存层,有助于越发高效地挖掘数据的潜在价值。

       PG电子·(中国)官方网站

  图1:英特尔®傲腾?长期内存存储层

  英特尔®傲腾?长期内存新一代产品200系列(Barlow Pass,即BPS)基于第三代英特尔®至强®可扩展处理器优化,容量有128GB、256GB和512GB三种。相关于上一代100系列产品,Ice Lake平台单颗CPU容量最大支持到4TB,内存频率提升至3200MT/Sec,单通道平均性能提升25%。

  英特尔®傲腾?长期内存200系列具有两种事情模式:内存模式(MM)和App Direct 模式(AD)。

  内存模式,CPU内存控制器将所有英特尔®傲腾?长期内存200系列视为易失性系统内存(无数据长期性),以更低的本钱提供更大的内存容量,无需更改应用,并且性能接近 DRAM。

  App Direct模式,能够实现较大内存容量和数据长期性,支持长期内存编程,软件和应用能够直接与英特尔®傲腾?长期内存通信,降低了货仓的庞大性,并充分利用缓存一致性的字节可寻址特性,将长期内存的使用扩展到外地节点之外 ;App Direct模式提供一致的低延迟,同时支持更大的数据集。

PG电子·(中国)官方网站

  图2:英特尔®傲腾?长期内存事情模式

  本计划使用App Direct模式,利用BPS的数据长期化、高容量、高可用性特性来加速Spark数据存储速度,实现以更低的内存本钱抵达更高的性能。

PG电子·(中国)官方网站

  图3:BPS内存扩展计划与DRAM计划比照

计划验证:性能提升,本钱降低

  本次使用TPC-DS测试了Spark在DRAM和BPS平台下的性能

  测试配置(表)

配置项

BPS

DRAM

情况配置

CPU

2*Icelake 6348 2.60GHz(112 vcore)

Memory

256G(16*16G)

1T(32*32G)

BPS

1T(8*128G)App Direct

None

Disk Drive

8*2T HDD

1:测试配置比照表

  集群网络拓扑图(图4)

PG电子·(中国)官方网站

  图4:测试计划集群网络拓扑图

  测试结果

  Spark SQL测试结果

PG电子·(中国)官方网站

  图5:Spark SQL集群性能测试结果

  Spark SQL集群比照测试结果说明: 数据cache后,BPS整体性能是DRAM的6.5倍。BPS通过OAP缓存了9个I/0需求高的SQL全部数据,而DRAM受效劳器内存资源的限制测试数据不可全部放在内存中,部分数据落在磁盘上,导致Spark数据处理能力无法充分发挥。

客户收益

  在Spark场景下,英特尔®傲腾?长期内存200系列体现了优秀的稳定性和性能,可作为内存扩展计划使用,满足Spark应用更大容量内存的需求。英特尔®傲腾?长期内存扩展计划让Spark以更低的本钱使用更多的内存,从而发挥Spark基于内存盘算的性能优势,该计划相关于DRAM计划有明显的性能提升。


线

?



×
PG电子·(中国)官方网站 联系pg电子官网
ERP、企业软件购置热线
400-018-7700
云效劳产品销售热线
400-607-6657
集团客户投诉热线
400-691-8711
智能终端产品客服热线
400-658-6111
网站地图