当前位置: 首页 > news >正文

兰山区建设局网站遵义市建设厅网站

兰山区建设局网站,遵义市建设厅网站,seo优化平台,福州公司建站来源#xff1a;数智化转型俱乐部 面对爆炸式增长的数据#xff0c;如何建设高效的数据模型和体系#xff0c;对这些数据进行有序和有结构地分类组织和存储#xff0c;避免重复建设和数据不一致性#xff0c;保证数据的规范性#xff0c;一直是大数据系统建设不断追求的…来源数智化转型俱乐部 面对爆炸式增长的数据如何建设高效的数据模型和体系对这些数据进行有序和有结构地分类组织和存储避免重复建设和数据不一致性保证数据的规范性一直是大数据系统建设不断追求的方向。 OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下构建统一、规范、可共享的全域数据体系避免数据的冗余和重复建设规避数据烟囱和不一致性充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系我们构建了阿里巴巴的数据公共层并可以帮助相似的大数据项目快速落地实现。下面重点介绍OneData体系和实施方法论。 1定位及价值 阿里巴巴集团大数据建设方法论的核心是从业务架构设计到模型设计从数据研发到数据服务做到数据可管理、可追溯、可规避重复建设。目前阿里巴巴集团数据公共层团队已把这套方法论沉淀为产品以帮助数据PD、数据模型师和ETL工程师建设阿里的大数据。这一体系包含方法论以及相关产品。 建设统一的、规范化的数据接入层ODS和数据中间层DWD和DWS通过数据服务和数据产品完成服务于阿里巴巴的大数据系统建设即数据公共层建设。提供标准化的Standard、共享的Shared、数据服务Service能力降低数据互通成本释放计算、存储、人力等资源以消除业务和技术之痛。 2体系架构 体系架构如图。 业务板块由于阿里巴巴集团业务生态庞大所以根据业务的属性划分出几个相对独立的业务板块业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、B2B系和AliExpress系等。 规范定义阿里数据业务庞大结合行业的数据仓库建设经验和阿里数据自身特点设计出的一套数据规范命名体系规范定义将会被用在模型设计中。后面章节将会详细说明。 模型设计以维度建模理论为基础基于维度建模总线架构构建一致性的维度和事实进行规范定义。同时在落地表模型时基于阿里自身业务特点设计出一套表规范命名体系。 3模型设计 模型设计指导理论阿里巴巴集团数据公共层设计理念遵循维度建模思想可参考Star Schema-The Complete Reference和The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling。数据模型的维度设计主要以维度建模理论为基础基于维度数据模型总线架构构建一致性的维度和事实。 模型层次阿里巴巴的数据团队把表数据模型分为三层操作数据层ODS、公共维度模型层CDM和应用数据层ADS其中公共维度模型层包括明细数据层DWD和汇总数据层DWS。 操作数据层ODS把操作系统数据几乎无处理地存放在数据仓库系统中。 同步结构化数据增量或全量同步到MaxCompute。 结构化非结构化日志结构化处理并存储到MaxCompute。 累积历史、清洗根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。 公共维度模型层CDM存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数据一般根据ODS层数据加工生成公共指标汇总数据一般根据维表数据和明细事实数据加工生成。 CDM层又细分为DWD层和DWS层分别是明细数据层和汇总数据层采用维度模型方法作为理论基础更多地采用一些维度退化手法将维度退化至事实表中减少事实表和维表的关联提高明细数据表的易用性同时在汇总数据层加强指标的维度退化采取更多的宽表化手段构建公共指标数据层提升公共指标的复用性减少重复加工。其主要功能如下。 组合相关和相似数据采用明细宽表复用关联计算减少数据扫描。 公共指标统一加工基于OneData体系构建命名规范、口径一致和算法统一的统计指标为上层数据产品、应用和服务提供公共指标建立逻辑汇总宽表。 建立一致性维度建立一致的数据分析维表降低数据计算口径、算法不统一的风险。 应用数据层ADS存放数据产品个性化的统计指标数据根据CDM层与ODS层加工生成。 个性化指标加工不公用性、复杂性指数型、比值型、排名型指标。 基于应用的数据组装大宽表集市、横表转纵表、趋势指标串。 阿里巴巴通过构建全域的公共层数据极大地控制了数据规模的增长趋势同时在整体的数据研发效率、成本节约、性能改进方面都有不错的效果。 数据调用服务优先使用公共维度模型层CDM数据当公共层没有数据时需评估是否需要创建公共层数据当不需要建设公用的公共层时方可直接使用操作数据层ODS数据。应用数据层ADS作为产品特有的个性化数据一般不对外提供数据服务但是ADS作为被服务方也需要遵守这个约定。 基本原则高内聚和低耦合——一个逻辑或者物理模型由哪些记录和字段组成应该遵循最基本的软件设计方法论的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型将高概率同时访问的数据放一起将低概率同时访问的数据分开存储 核心模型与扩展模型分离——建立核心模型与扩展模型体系核心模型包括的字段支持常用的核心业务扩展模型包括的字段支持个性化或少量应用的需要不能让扩展模型的字段过度侵入核心模型以免破坏核心模型的架构简洁性与可维护性。 公共处理逻辑下沉及单一——越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现不要让公用的处理逻辑暴露给应用层实现不要让公共逻辑多处同时存在。 成本与性能平衡——适当的数据冗余可换取查询和刷新性能不宜过度冗余与数据复制。 数据可回滚——处理逻辑不变在不同时间多次运行数据结果确定不变。 一致性——具有相同含义的字段在不同表中的命名必须相同必须使用规范定义中的名称。 命名清晰、可理解——表命名需清晰、一致表名需易于消费者理解和使用。 如何从具体的需求或项目转换为可实施的解决方案如何进行需求分析、架构设计、详细模型设计等则是模型实施过程中讨论的内容。下节会简单介绍业界常用的模型实施过程重点讲解阿里巴巴OneData模型设计理论及实施过程。注本书中出现的部分专有名词、专业术语、产品名称、软件项目名称、工具名称等是淘宝中国软件有限公司内部项目的惯用词语如与第三方名称雷同实属巧合。 原文链接 本文为阿里云原创内容未经允许不得转载。
http://www.sadfv.cn/news/332517/

相关文章:

  • 北京联通网站备案ui设计学徒
  • 免费做销售网站有哪些网站开发团队需配备什么岗位
  • 网站 成品下载百度推广如何获取精准的客户
  • 网站开发职责与要求django企业网站源码
  • 网站建设经费请示太仓网站设计早晨设计
  • 出口贸易网站网站艺术设计
  • 有备案号的网站是公司的吗滦南县建设局网站
  • 网站建设"淘宝网" 在颜色选取和搭配方面有哪些值得学习的地方.旅游网站建设的可行性分析
  • 织梦网站添加视频教程河北建设工程信息网官网 费用中项网
  • 建网站有哪些文件夹衡阳企业seo优化首选
  • 深圳网站建设流程网站运作方式
  • 销售网站排名wordpress 全文检索
  • ADPR国际传媒网站建设互联网营销师证
  • 查工程建设不良记录免费的网站在线缩短网址
  • 网站怎么在百度搜到网站整站建设
  • 无锡新区网站建设wordpress 多重
  • 中山市做网站公司传媒公司注册需要什么条件
  • 哪个网站可以做魔方图片大全东莞中高端网站建设
  • 建网站培训班任丘住房建设局网站
  • wordpress 主页面错乱谷歌优化软件
  • 体育直播网站制作开发seo教程网站优化推广排名
  • 网站系统php源码搜索引擎优化论文3000字
  • 石家庄网站建设.神鹿网络佛山小网站建设
  • 企业网站建设可行性分析hois.skxy.wordpress
  • 目前热门的网站建设语言二次元wordpress主题生成
  • 东莞做棋牌网站建设大连做网站的科技公司
  • 网络营销的理论基础秦洁婷seo博客
  • 网站开发一般多少钱燕郊建设局网站
  • 网站信用建设应该用什么技术网页编辑代码模板
  • 郑州市房产信息网官方网站wordpress购物网站教程