线上服务咨询
大数据计算新贵SPARK在腾讯雅虎优酷成功应用分析
发表时间:2019-07-30 16:52:38
文章来源:沈阳软件开发
标签:网站建设 小程序开发 小程序制作 微信小程序开发 公众号开发 微信公众号开发 网页设计 网站优化 网站排名 网站设计 微信小程序设计 小程序定制 微信小程序定制
浏览次数:0
Park是Apache的顶级开源项目。有关项目主页,请参阅http://spark.apache.org。迭代计算,交互式查询计算和批量流量计算等相关子项目,如Shark,Spark Streaming,MLbase,GraphX,SparkR等。自13年以来,Spark一直举办自己的Spark Summit会议,会议地址为http://spark-summit.org。 Amplab Labs已经建立了一个独立的公司Databricks,以支持Spark的开发。
为了满足挖掘分析和交互式实时查询的计算需求,腾讯大数据使用Spark平台支持挖掘分析计算,交互式实时查询计算以及允许误差范围的快速查询计算。目前,腾讯大数据已超过200个单位。 Spark集群并独立维护Spark和Shark分支。 Spark集群已经稳定运行了2年。我们积累了大量的案例和运营经验能力。此外,多种服务的大数据查询和分析应用程序已在线且稳定。在SQL查询性能方面,它通常比MapReduce高2倍多。使用内存计算和内存表功能,性能至少是10倍。在迭代计算和挖掘分析中,强烈建议将小时和日级模型训练转换为Spark的分钟级训练,而简单的编程接口使得算法实现在时间成本和代码大小方面远高于MR。
Spark VS MapReduce
尽管MapReduce适用于大多数批处理,并且是大数据时代企业大数据处理的首选技术,但由于以下限制,它在某些情况下并非最佳:
缺乏对迭代计算和DAG操作的支持。随机处理多种类别和着陆,MR之间的数据需要落入Hdfs文件系统在许多方面,Spark弥补了MapReduce的缺点,MapReduce优于MapReduce,更有效的迭代操作和更低的作业延迟。它的主要优点包括:
为支持DAG图的分布式并行计算提供一组编程框架。减少多次计算之间的开销。写入Hdfs的开销提供了一种Cache机制来支持IO,这需要迭代迭代或多个数据共享来减少数据读取。 Overhead使用多线程池模型来减少task汇海的打开,避免在shuffle期间进行不必要的排序操作,并减少磁盘IO操作。广泛的数据集操作类型由于其设计约束,MapReduce仅适用于离线计算。实时查询和迭代计算仍然存在很大的不足。随着业务的发展,业界对实时查询和迭代分析的需求更多,仅依靠MapReduce。该框架不再能够满足业务需求。由于其可扩展性,基于内存的计算等,Spark可以直接在Hadoop上以任何格式读写数据,并成为满足业务需求的最佳候选者。
应用Spark的成功故事
目前,大数据主要用于互联网公司的广告,报告,推荐系统和其他服务。在广告业务中,需要大数据进行应用分析,效果分析,定位优化等。在推荐系统中,需要大数据优化相关排名,个性化推荐和热点点击分析。
这些应用场景的一般特征是大的计算复杂性和高效率要求。 Spark满足了这些要求,该项目得到了开源社区的广泛关注和赞誉。在过去两年中,它已发展成为大数据处理领域最受欢迎的开源项目。
本章将列出在国内外应用Spark的成功案例。
1.腾讯
Wide Point是最早使用Spark的应用程序之一。腾讯大数据精确推荐具有Spark快速迭代的优势,围绕“数据+算法+系统”技术解决方案,实现“数据实时采集,算法实时训练,系统实时预测”全程处理并行高维算法,最后,它成功应用于广泛的pCTR传送系统,支持数百亿的日常请求。
基于日志数据,快速查询系统服务建立在Spark上。 Shark利用其快速查询和内存表来进行日志数据的即席查询。在性能方面,它通常比Hive高2-10倍。如果使用内存表的功能,性能将比Hive快100倍。
2.雅虎
雅虎在Audience Expansion中将Spark用于应用程序。受众群体扩展是广告客户找到目标用户的一种方式:首先,广告客户提供观看广告和购买产品的样本客户,并学习如何找到更多潜在用户并定位他们。雅虎使用的算法是逻辑回归。同时,由于某些SQL工作负载需要更高的服务质量,因此添加了专门用于Shark的大型内存集群来替换商业BI/OLAP工具,进行报表/仪表板和交互式/即席查询,同时与桌面BI工具对接。目前在雅虎部署的Spark集群有112个节点和9.2TB的内存。
3.淘宝
阿里搜索和广告业务,最初使用Mahout或自编MR来解决复杂的机器学习,导致效率低下且代码不易保护。淘宝技术团队使用Spark来解决具有高计算复杂度的多次迭代和算法的机器学习算法。将Spark应用于淘宝的推荐相关算法,它也解决了Graphx的许多生产问题,包括以下计算场景:基于度分布的中心节点发现,基于最大连通图的社区发现,基于三角计数的关系测量,基于用户随机游走的属性传播等。
4.优酷土豆
优酷在使用Hadoop集群时遇到的突出问题包括:首先是BI,分析师需要等待很长时间才能在提交任务后获得结果;二是大数据的计算,例如在进行一些模拟广告时,计算量非常大,效率要求也比较高。最后,机器学习和图形计算的迭代操作也需要大量资源并且非常慢。
最后,这些应用场景不适合在MapReduce中处理。相比之下,发现Spark性能比MapReduce好得多。首先,交互式查询响应速度快,性能比Hadoop高几倍;模拟广告投放计算效率高,延迟小(与hadoop相比,顺序减少至少一个数量级);机器学习和图形计算等迭代计算大大减少了网络传输和数据。登陆等,大大提高了计算性能。目前,Spark广泛使用了优酷土豆的视频推荐(图形计算)和广告业务。
网站建设,小程序开发,小程序制作,微信小程序开发,公众号开发,微信公众号开发,网页设计,网站优化,网站排名,网站设计,微信小程序设计,小程序定制,微信小程序定制