vr属于365bet体育在线官网黑钱_365bet安全么_365bet在线开户领域吗

Netflix展示大数据分析基础架构

Netflix资深软件工程师Tom Gianos和Netflix大数据计算工程经理Dan Weeks在2016年度QCon旧金山活动中介绍了Netflix的大数据策略和分析基础架构,此外还概括介绍了他们的数据规模、S3数据仓库,以及他们的大数据大数据联合编排系统(Federated orchestration system)Genie。

为了介绍具体的需求,Weeks解释称,“规模”是Netflix在大数据领域面临的最大挑战。该公司在全球范围内有超过8600万会员,每天通过流播的方式播放总时长超过1.25亿小时的内容。这样的规模导致他们的数据仓库容量已经超过60PB。

尽管很多人可能觉得视频流播数据是Netflix数据分析工作的主要数据源,但Weeks解释说,他们分析的主要是其他类型的数据,例如公司内部各种微服务和营销活动产生的事件,尤其是Weeks专门提到:

Netflix是一家彻头彻尾的数据驱动型公司。我们喜欢根据真凭实据作出不同的决策。对于整个平台的某些变更,如果无法切实证明有助于改善用户体验,我们宁愿不进行这样的变更。

Weeks列举了一个此类数据类型的用例:A/B测试。数据科学家可以分析用户的交互,进而决定向用户永久推送哪些类型的功能。

Weeks还概括介绍了Netflix的数据流程架构。他们共使用了两个数据流,一个用于事件数据,一个用于维度数据。事件数据通过他们的Kafka数据管道传递,维度数据则使用开源工具Aegisthus从他们的Cassandra群集拉取。最终,所有类型的数据汇总至S3。

虽然传统数据仓库可以使用HDFS,但Weeks提到使用S3可以获得其他一些优势。例如99.99%可用性、版本控制,以及将计算负载从存储系统中剥离的能力。最后一点非常关键,尽管数据未能本地保存会导致延迟增高,但通过这样的剥离可以很轻松地在无须移动数据的前提下对计算群集进行缩放或执行升级任务。

sui ran chuan tong shu ju cang ku ke yi shi yong HDFS, dan Weeks ti dao shi yong S3 ke yi huo de qi ta yi xie you shi. li ru 99. 99 ke yong xing ban ben kong zhi, yi ji jiang ji suan fu zai cong cun chu xi tong zhong bo li de neng li. zui hou yi dian fei chang guan jian, jin guan shu ju wei neng ben di bao cun hui dao zhi yan chi zeng gao, dan tong guo zhe yang de bo li ke yi hen qing song di zai wu xu yi dong shu ju de qian ti xia dui ji suan qun ji jin xing suo fang huo zhi xing sheng ji ren wu.

在数据仓库方面,为了获得所需数据,Weeks介绍说他们使用了一种名为Metacat的元数据系统。具体来说,该系统提供了有关确定如何处理数据所需的信息,此外还可以从中了解数据具体是什么,保存在哪里。由于这是一种联合(Federated)系统,因此可在Hive、RDS、S3等存储的基础之上运行的技术。

Weeks还介绍说,数据本身存储为Parquet文件格式。这是一种列式存储格式,借此可获得更高压缩率。Parquet文件还可以存储额外的元数据,例如有关列最大/最小长度及其体积的信息。这样诸如计数或跳过之类的操作就可以非常快速地执行完毕。

有关Parquet调优地详细信息已由Netflix资深软件工程师Ryan Blue公开发布至这里。

在Weeks从底层介绍他们的大数据环境后,Gianos从较高层面进行了介绍。他介绍的内容主要围绕Genie,这是一种联合编排引擎,可用于管理诸如Hadoop、Pig、Hive等不同类型的大数据作业。

为了介绍他们针对Genie的具体需求,Gianos用一个简单的用例作为例子:少量用户同时访问同一个群集。虽然这种情况非常易于管理,但随着组织规模的增大,可能会面临不同的情况,导致对客户端资源和群集资源的需求激增,进而导致部署变得愈加复杂。这就导致了导致数据科学家经常遇到的问题,例如作业速度变慢,数据处理库过时等,这也使得系统管理员难以轻松地对这些问题作出响应。

按照Gianos的介绍,Genie可以帮助系统管理员执行群集的启动和管理、库文件的安装等任务,这一切都不会影响到最终用户。从用户的角度来看,用户可以通过这样的抽象直接访问群集,而无须考虑如何连接到群集,也不需要了解群集上到底运行了什么。

在群集的更新方面,Gianos介绍说,只要成功通过测试,只需要添加对应的标签即可顺利迁移至新群集。Genie可以对所有工作进行编排,并让原本的作业继续在老群集上运行,同时新提交的作业可以在新群集上运行。这样即可实现不停机更新。

Genios还介绍说,Genie的标签机制可以应用于负载均衡,为此只需跨越群集对标签进行复制即可拆分负载。从客户端的角度来看,这一过程是完全透明的。

另外Genios也介绍了Genie的二进制更新机制。新的二进制文件可以移动到一个集中的下载位置,随后在下一次调用时自动替换老的文件。

Genios从数据科学家的角度演示了Genie的完整工作流。基本上,他们只需要将作业提交至Genie,其中可包含群集标签等元数据,以及自己希望使用的大数据处理引擎。随后Genie可以查找最适合运行该作业的群集。Genie的界面会通过用户反馈告诉用户作业的运行进度。

详细信息请在线查看完整演示文稿。

阅读英文原文:Netflix Demonstrates Big Data Analytics Infrastructure

本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-03/142228.htm

当前文章:http://www.633lm.com/igfa1z/53157-59663-51729.html

发布时间:08:28:48


{相关文章}

东盟嘉宾点赞贵阳大数据 参观贵阳相关建设成就

参观清镇职her百度云365bet体育在线官网黑钱_365bet安全么_365bet在线开户_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台教城、北京贵阳大数据应用展示中365bet体育在线官网黑钱_365bet安全么_365bet在线开户的有关模型_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台心后——

东盟嘉宾点赞贵阳大数据

中国-东盟教育交流周组委会秘书处、中国-东盟中心、东南亚教育部长组织昨日在贵阳举行三方会议,并参观了清镇职教城和北京贵阳大数据应用展示中心,探索进一步加强东盟国家与贵州的合作。

在北京贵阳大数据应用展示中心,嘉宾不断365bet体育在线官网黑钱_365bet安全么_365bet在线开户机器人2017年高考_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台向工作人员询问,数据中心是否与高校有合作等问题。基于越来越多的外国友人将来到展示中心参观,嘉宾建议展示中心提供双语展示,让交流更顺畅。

东南亚教育部长组织秘书长加多特从事数据模拟方面的工作,他也为贵阳的大数据点赞。他认为,贵阳已掌握很好的大数据工具,无论是在教育还是交通等领域,都可通过数据分析提供决中国365bet体育在线官网黑钱_365bet安全么_365bet在线开户旗下银行_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台策依据。

在清镇职教城,中国-东盟中心、东南亚教育部长组织一行参观了学校的实训基地,了解对外合作项目。加多特介绍,清镇职教城的一些学校已与东盟国家开展学生交换项目,希望组织更多的东盟教育团和学生代表团到贵阳,进一步与贵阳的职校进行接洽。(记者 周然)365bet体育在线官网黑钱_365bet安全么_365bet在线开户导论简介_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台

注:本文系数据观原创稿件,转载请注明来源:数据观www.cbdio.com,百度一下“数据观”,获取更多大数_星玄未来365bet体育在线官网黑钱_365bet安全么_365bet在线开户平台据相关资讯。