天天靓号网欢迎您!欢迎致电免费服务热线:176-7000-0007
为您提供百万靓号,移动电信联通手机靓号全国渠道
搜号码
客服热线(09:00~21:00)

176-7000-0007

NVIDIA为全球最受欢迎的数据分析平台 Spark提速

发布时间:2020-06-28

作为世界上最流行的数据分析应用程序,Apache  Spark通过之前发布的Spark  3.0为50多万用户提供了革命性的GPU加速。

Databricks为用户提供了一个高级企业云平台Spark,该平台每天由100多万台虚拟机运行。在6月25日的星火人工智能峰会上,Databricks宣布其用于机器学习的Databricks运行时7.0将配备内置了Spark  3.0的图形处理器加速器感知调度功能。该功能是由Databricks与NVIDIA和其他社区成员合作开发的。

谷歌云最近宣布将在数据平台image  2.0上提供Spark  3.0预览版,并指出在开源社区的合作下,它已经获得了强大的NVIDIA  GPU加速。英伟达将于7月16日与谷歌云举行网络研讨会,讨论这些让数据科学家兴奋不已的新特性。

此外,针对Apache  Spark的新的开源RAPIDS加速器现在可以加速ETL(提取、转换、加载)和数据传输,并提高端到端分析性能,而无需更改任何代码。

Spark性能的提升不仅意味着更快地获得洞察力,还能帮助企业降低成本,因为他们可以使用更少的基础架构来完成工作负载。

加速数据分析:科学计AI更强大的力量

Spark完全有理由成为新闻媒体的焦点。

数据对于帮助企业应对不断变化的机遇和潜在威胁非常重要。为此,他们需要破译隐藏在数据中的关键线索。

每次客户点击一个网站,打一个客户服务电话或生成一份每日销售报告,都会为企业贡献大量信息。随着人工智能的兴起,数据分析在帮助企业发现趋势和保持市场领先地位方面发挥着越来越重要的作用。

不久前,数据分析还依赖于小数据集来收集历史数据和见解,并通过ETL分析存储在传统数据仓库中的高度结构化的数据。

ETL经常成为数据科学家获取人工智能预测和建议的瓶颈。预计ETL将占用数据科学家70%到90%的时间,这将减缓工作流程,并将最热门的人才与最常见的工作联系起来。

当数据科学家在等待ETL的时候,他们不能通过重新训练模型来获得更好的业务洞察力。传统的CPU基础设施无法通过有效的扩展来适应这些任务,这通常会大大增加成本。

有了GPU加速的火花,ETL就不会有这样的麻烦了。医疗、娱乐、能源、金融、零售和其他行业可以经济高效地加速数据分析,并更快地获得洞察力。

并行处理助力数据分析

GPU并行处理使计算机能够同时执行多个操作。数据中心通过大规模扩展这些功能来支持复杂的数据分析项目。随着越来越多的企业使用人工智能和机器学习工具,并行处理已经成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。

例如,零售商希望预测下一季度的库存。零售商需要检查最近的销售额和去年的数据。数据科学家还可以将天气模型添加到这一分析中,以了解雨季或旱季对结果的影响。零售商也可以整合情感分析数据来评估今年最流行的趋势。

因为要分析的数据源太多,所以在建模不同变量对销售量的可能影响时,速度尤其重要。因此,有必要在机器学习中加入分析,而GPU变得非常重要。

RAPIDS加速器为Apache  Spark  3.0提速

随着数据科学家从传统分析转向能够更好地模拟复杂市场需求的人工智能应用,如果他们继续采用中央处理器,他们必须牺牲速度或增加成本来满足最终的处理需求。随着人工智能在分析中的应用越来越多,需要一个新的框架来通过GPU快速、经济、高效地处理数据。

Apache  Spark的新RAPIDS加速器将Spark分布式计算框架与功能强大的RAPIDS  cuDF库连接起来,通过GPU加速Spark数据框架和Spark  SQL的运行。RAPIDS加速器还通过搜索在Spark节点之间移动数据的最快路径来加速Spark  Shuffle。

上一篇:安徽发布5G工作要点:年内完成5G基站建设2万个,力争达到2.5万个

下一篇:IDC:中国电信天翼云稳步上升 位居云运营服务市场第一

                      • 千万号码 任意选择
                      • 天天特价 畅选无忧
                      • 实名信息 严格保密
                      • 诚信经营 童叟无欺

                      掌上靓号

                      微信号:17670000007