双人网页游戏网站,wordpress添加html网页,北京大兴网站建设公司咨询,潍坊滨海开发区建设局网站简介#xff1a;本篇内容分享了MaxCompute湖仓一体介绍。 分享人#xff1a;孟硕 阿里云 MaxCompute产品专家
视频链接#xff1a;数据智能实战营-北京站 专题回顾
正文#xff1a;
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体…简介本篇内容分享了MaxCompute湖仓一体介绍。 分享人孟硕 阿里云 MaxCompute产品专家
视频链接数据智能实战营-北京站 专题回顾
正文
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍 一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构主要面向数据分析师数据科学家以及大数据工程师来使用。主要应用的业务有Machine非结构化数据分析Ad-hoc/BIReporting和Learning等等。在整体架构中DataWorks作为数据统一开发管理的平台主要负责数据安全开发IDE任务调度和数据资产管理等综合工作确保平台稳定运行。 如上图所示在整体架构中我们首先将数据湖集群和MaxCompute数仓集群的网络打通然后将存储层的数据打通确保智能Cache冷热分层存储优化和性能加速。在计算层我么实现了DB级元数据的透视避免数据孤岛。 DataWorks统一了各种数据资产比如E-MapReduceCDH HBaseCDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产而且还支持从数据源里抽取元素与信息。 在阿里内部我们实现了一定程度的数据民主化。现如今阿里集团内部所有的表员工都能够看到表名称和的元数据信息以及信息的安全等级。DataWorks作为中台可以从列表中支持的数据源采集数据纳入平台管控。 目前统一的表级、字段级别数据血缘就现有的产品能力只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。 在单一引擎内部可以挂载多个hadoop集群实现统一引擎的对接与管理。 DataWorks作为统一的数据开发平台能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业MaxCompute作业以及Hive作业等。 二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户主要应用是机器学习DWMCPAIEAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用使用集群管控较严无法短时间支撑大workload的创新业务。 基于以上需求我们通过湖仓一体将新业务平台与原有数据平台打通即PAI on MaxComputeDataWorks。为客户提供了一站式机器学习模型开发、模型发布大规模计算等能力提升了团队的工作效率。 数禾公司通过引入MaxCompute作为计算引擎的数据中台不但让数据湖计算自由流动而且解决了先前异构计算引擎存储管理元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率而且降低了运维成本起到了降本增效的作用。 上图是数禾公司构建的基于MaxComputeDLFEMR的湖仓一体架构。底层是OSS数据湖存储我们通过DLF构建了元数据管理数据血缘管理数据权限管理。通过JindoFSMC的方式实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR成功实现了智能数据构建与数据中台管理。 在未来湖仓统一开发管理平台能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据也能支持非机构化数据。整个平台不但能同步联邦数据源而且能统一元数据服务和元数据仓库。
原文链接
本文为阿里云原创内容未经允许不得转载。