大数据计算新贵SPARK在腾讯雅虎优酷成功应用分析

发表时间：2019-07-30 16:52:38

文章来源：沈阳软件开发

标签：网站建设小程序开发小程序制作微信小程序开发公众号开发微信公众号开发网页设计网站优化网站排名网站设计微信小程序设计小程序定制微信小程序定制

浏览次数：0

Park是Apache的顶级开源项目。有关项目主页，请参阅http://spark.apache.org。迭代计算，交互式查询计算和批量流量计算等相关子项目，如Shark，Spark Streaming，MLbase，GraphX，SparkR等。自13年以来，Spark一直举办自己的Spark Summit会议，会议地址为http://spark-summit.org。 Amplab Labs已经建立了一个独立的公司Databricks，以支持Spark的开发。

为了满足挖掘分析和交互式实时查询的计算需求，腾讯大数据使用Spark平台支持挖掘分析计算，交互式实时查询计算以及允许误差范围的快速查询计算。目前，腾讯大数据已超过200个单位。 Spark集群并独立维护Spark和Shark分支。 Spark集群已经稳定运行了2年。我们积累了大量的案例和运营经验能力。此外，多种服务的大数据查询和分析应用程序已在线且稳定。在SQL查询性能方面，它通常比MapReduce高2倍多。使用内存计算和内存表功能，性能至少是10倍。在迭代计算和挖掘分析中，强烈建议将小时和日级模型训练转换为Spark的分钟级训练，而简单的编程接口使得算法实现在时间成本和代码大小方面远高于MR。

Spark VS MapReduce

尽管MapReduce适用于大多数批处理，并且是大数据时代企业大数据处理的首选技术，但由于以下限制，它在某些情况下并非最佳：

缺乏对迭代计算和DAG操作的支持。随机处理多种类别和着陆，MR之间的数据需要落入Hdfs文件系统

在许多方面，Spark弥补了MapReduce的缺点，MapReduce优于MapReduce，更有效的迭代操作和更低的作业延迟。它的主要优点包括：

为支持DAG图的分布式并行计算提供一组编程框架。减少多次计算之间的开销。写入Hdfs的开销提供了一种Cache机制来支持IO，这需要迭代迭代或多个数据共享来减少数据读取。 Overhead使用多线程池模型来减少task汇海的打开，避免在shuffle期间进行不必要的排序操作，并减少磁盘IO操作。广泛的数据集操作类型

由于其设计约束，MapReduce仅适用于离线计算。实时查询和迭代计算仍然存在很大的不足。随着业务的发展，业界对实时查询和迭代分析的需求更多，仅依靠MapReduce。该框架不再能够满足业务需求。由于其可扩展性，基于内存的计算等，Spark可以直接在Hadoop上以任何格式读写数据，并成为满足业务需求的最佳候选者。

应用Spark的成功故事

目前，大数据主要用于互联网公司的广告，报告，推荐系统和其他服务。在广告业务中，需要大数据进行应用分析，效果分析，定位优化等。在推荐系统中，需要大数据优化相关排名，个性化推荐和热点点击分析。

这些应用场景的一般特征是大的计算复杂性和高效率要求。 Spark满足了这些要求，该项目得到了开源社区的广泛关注和赞誉。在过去两年中，它已发展成为大数据处理领域最受欢迎的开源项目。

本章将列出在国内外应用Spark的成功案例。

1.腾讯

Wide Point是最早使用Spark的应用程序之一。腾讯大数据精确推荐具有Spark快速迭代的优势，围绕“数据+算法+系统”技术解决方案，实现“数据实时采集，算法实时训练，系统实时预测”全程处理并行高维算法，最后，它成功应用于广泛的pCTR传送系统，支持数百亿的日常请求。

基于日志数据，快速查询系统服务建立在Spark上。 Shark利用其快速查询和内存表来进行日志数据的即席查询。在性能方面，它通常比Hive高2-10倍。如果使用内存表的功能，性能将比Hive快100倍。

2.雅虎

雅虎在Audience Expansion中将Spark用于应用程序。受众群体扩展是广告客户找到目标用户的一种方式：首先，广告客户提供观看广告和购买产品的样本客户，并学习如何找到更多潜在用户并定位他们。雅虎使用的算法是逻辑回归。同时，由于某些SQL工作负载需要更高的服务质量，因此添加了专门用于Shark的大型内存集群来替换商业BI/OLAP工具，进行报表/仪表板和交互式/即席查询，同时与桌面BI工具对接。目前在雅虎部署的Spark集群有112个节点和9.2TB的内存。

3.淘宝

阿里搜索和广告业务，最初使用Mahout或自编MR来解决复杂的机器学习，导致效率低下且代码不易保护。淘宝技术团队使用Spark来解决具有高计算复杂度的多次迭代和算法的机器学习算法。将Spark应用于淘宝的推荐相关算法，它也解决了Graphx的许多生产问题，包括以下计算场景：基于度分布的中心节点发现，基于最大连通图的社区发现，基于三角计数的关系测量，基于用户随机游走的属性传播等。

4.优酷土豆

优酷在使用Hadoop集群时遇到的突出问题包括：首先是BI，分析师需要等待很长时间才能在提交任务后获得结果;二是大数据的计算，例如在进行一些模拟广告时，计算量非常大，效率要求也比较高。最后，机器学习和图形计算的迭代操作也需要大量资源并且非常慢。

最后，这些应用场景不适合在MapReduce中处理。相比之下，发现Spark性能比MapReduce好得多。首先，交互式查询响应速度快，性能比Hadoop高几倍;模拟广告投放计算效率高，延迟小（与hadoop相比，顺序减少至少一个数量级）;机器学习和图形计算等迭代计算大大减少了网络传输和数据。登陆等，大大提高了计算性能。目前，Spark广泛使用了优酷土豆的视频推荐（图形计算）和广告业务。

网站建设,小程序开发,小程序制作,微信小程序开发,公众号开发,微信公众号开发,网页设计,网站优化,网站排名,网站设计,微信小程序设计,小程序定制,微信小程序定制

大数据计算新贵SPARK在腾讯雅虎优酷成功应用分析

相关案例查看更多