网站设计网络推广,推广普通话的画,cps推广平台,属于网页制作平台的是【数据仓库系列文章 - 传送门】
一篇文章搞懂数据仓库#xff1a;三种事实表#xff08;设计原则#xff0c;设计方法#xff09;一篇文章搞懂数据仓库#xff1a;三种事实表#xff08;设计原则#xff0c;设计方法、对比#xff09;_不吃西红柿-CSDN博客_事实表三种…【数据仓库系列文章 - 传送门】
一篇文章搞懂数据仓库三种事实表设计原则设计方法一篇文章搞懂数据仓库三种事实表设计原则设计方法、对比_不吃西红柿-CSDN博客_事实表三种类型 一篇文章搞懂数据仓库元数据分类、元数据管理 一篇文章搞懂数据仓库元数据分类、元数据管理_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库总线架构、一致性维度、一致性事实 一篇文章搞懂数据仓库总线架构、一致性维度、一致性事实_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库数据应用--OLAP 一篇文章搞懂数据仓库数据应用--OLAP_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库数据仓库架构-Lambda和Kappa 一篇文章搞懂数据仓库数据仓库架构-Lambda和Kappa对比_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库数据仓库规范设计 一篇文章搞懂数据仓库数据仓库规范设计_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库常用ETL工具、方法 一篇文章搞懂数据仓库常用ETL工具、方法_不吃西红柿-CSDN博客_数据仓库etl 一篇文章搞懂数据仓库四种常见数据模型 一篇文章搞懂数据仓库四种常见数据模型维度模型、范式模型等_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库数据治理目的、方法、流程 一篇文章搞懂数据仓库数据治理目的、方法、流程_不吃西红柿-CSDN博客_数据仓库 数据治理 一篇文章搞懂数据仓库维度表设计原则、设计方法 一篇文章搞懂数据仓库维度表设计原则、设计方法_不吃西红柿-CSDN博客 一篇文章搞懂数据仓库数据仓库的8个发展阶段 一篇文章搞懂数据仓库数据仓库的8个发展阶段_不吃西红柿-CSDN博客_数据仓库发展史 一篇文章搞懂数据仓库三范式与反范式 一篇文章搞懂数据仓库三范式与反范式_不吃西红柿-CSDN博客_数据仓库三范式
目录
数据仓库面试基础知识
1、什么是数据仓库
2、数据仓库和数据库的区别
3、如何构建数据仓库
4、什么是数据中台
5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么
6、大数据有哪些相关的系统
7、如何建设数据中台
8、数据仓库最重要的是什么
9、概念模型、逻辑模型、物理模型分别介绍一下
10、SCD常用的处理方式有哪些
11、怎么理解元数据
12、数仓如何确定主题域
13、如何控制数据质量
14、模型设计的思路业务驱动数据驱动
15、为什么需要数据仓库建模
16、数据仓库建模方法有哪些
17、数仓架构为什么要分层 光阴似箭岁月如刀。小编已经从刚毕业时堤上看风的白衣少年变成了一个有五年开发经验的半老程序员。五年——是一个非常重要的时间节点意味你见过很多套技术构架学过很多技术组件写过很多行代码有了自己的技术理解、知识体系和编码风格。这个时候我们对待技术的态度已经从扩宽广度慢慢转变成沉淀深度为主了。
也是刚刚面试了北京各大厂顺利拿到4个offer趁热打铁呕dao心chu沥fu血zhi总结了一些数据仓库的面试基础知识希望能帮到大家有需要内推的小伙伴加文末微信。
数据仓库面试基础知识
1、什么是数据仓库
权威定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合用于支持管理决策。
1数据仓库是用于支持决策、面向分析型数据处理
2对多个异构的数据源有效集成集成后按照主题进行重组并包含历史数据而且存放在数据仓库中的数据一般不再修改
2、数据仓库和数据库的区别
从目标、用途、设计来说
1数据库是面向事务处理的数据是由日常的业务产生的并且是频繁更新的数据仓库是面向主题的数据来源多样化经过一定的规则转换得到的用于分析和决策
2数据库一般用来存储当前事务性数据如交易数据数据仓库一般存储的是历史数据
3数据库设计一般符合三范式有最大的精确度和最小的冗余度有利于数据的插入数据仓库设计一般不符合三范式有利于查询
3、如何构建数据仓库
数据仓库模型的选择是灵活的不局限与某种模型方法数据仓库数据是灵活的以实际需求场景为导向数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本
1调研业务调研、需求调研、数据调研
2划分主题域通过业务调研、需求调研、数据调研最终确定主题域
3构建总线矩阵、维度建模
总线矩阵把总线架构列表形成矩阵形式行表示业务处理过程即事实列表示一致性的维度在交叉点上打上标记表示该业务处理过程与该维度相关交叉探查
4设计数仓分层架构
5模型落地
6数据治理
4、什么是数据中台
数据中台是通过数据技术对海量数据进行采集、计算、存储、加工同时统一标准和口径。数据中台把数据统一之后会形成标准数据再进行存储形成大数据资产层进而为客户提供高效服务。这些服务和企业的业务有较强关联性是企业所独有且能复用的他是企业业务和数据的积淀其不仅能降低重复建设减少烟囱式协助的成本也是差异化竞争的优势所在。
数据中台是通过整合公司开发工具、打通全域数据、让数据持续为业务赋能实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”。
5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么
1基础能力上的区别
数据平台提供的是计算和存储能力
数据仓库利用数据平台提供的计算和存储能力在一套方法论的指导下建设的一整套的数据表
数据中台包含了数据平台和数据仓库的所有内容将其打包并且以更加整合以及更加产品化的方式对外提供服务和价值
数据湖一个存储企业各种各样原始数据的大型仓库包括结构化和非结构化数据其中湖里的数据可供存取、处理、分析和传输
2业务能力上的区别
数据平台为业务提供数据主要方式是提供数据集
数据仓库相对具体的功能概念是存储和管理一个或多个主题数据的集合为业务提供服务的方式主要是分析报表
数据中台企业级的逻辑概念体现企业数据产生价值的能力为业务提供服务的主要方式是数据API
数据湖数据仓库的数据来源
总的来说数据中台距离业务更近数据复用能力更强能为业务提供速度更快的服务数据中台在数据仓库和数据平台的基础上将数据生产为一个个数据API服务以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上是加速企业从数据到业务价值的过程的中间层。
6、大数据有哪些相关的系统
数仓设计中心按照主题域、业务过程分层的设计方式以维度建模作为基本理论依据按照维度、度量设计模型确保模型、字段有统一的命名规范
数据资产中心梳理数据资产基于数据血缘数据的访问热度做成本的治理
数据质量中心通过丰富的稽查监控系统对数据进行事后校验确保问题数据第一时间被发现避免下游的无效计算分析数据的影响范围。
指标系统管理指标的业务口径、计算逻辑和数据来源通过流程化的方式建立从指标需求、指标开发、指标发布的全套协作流程
数据地图提供元数据的快速索引数据字典、数据血缘、数据特征信息的查询相当于元数据中心的门户。
7、如何建设数据中台
数据中台在企业落地实践时结合技术、产品、数据、服务、运营等方面逐步开展相关工作
1理现状了解业务现状、数据现状、IT现状、现有的组织架构
2定架构确认业务架构、技术架构、应用架构、组织架构
3建资产建立贴近数据层、统一数仓层、标签数据层、应用数据层
4用数据对数据进行输出、应用
5数据运营持续运营、持续迭代
中台建设需要有全员共识由管理层从上往下推进由技术和业务人员去执行和落地是一个漫长的过程在实施数据中台时最困难的地方就是需要有人推动。
8、数据仓库最重要的是什么
个人认为是数据集成和数据质量
企业的数据通常存储在多个异构数据库中要进行分析必须对数据进行一致性整合整合后才能对数据进行分析挖掘出潜在的价值
数据质量必须有保障数据质量不过关别人怎么会使用你的数据
9、概念模型、逻辑模型、物理模型分别介绍一下
1概念模型CDM概念模型是最终用户对数据存储的看法反映了最终用户综合性的信息需求以数据类的方式描述企业级的数据需求
概念模型的内容包括重要的实体与实体之间的关系在概念模型中不包含实体的属性也不包含定义实体的主键
概念模型的目的是统一业务概念作为业务人员和技术人员之间的沟通桥梁确定不同实体之间的最高层次的关系
2逻辑模型LDM逻辑模型反映的是系统分析人员对数据存储的观点是对概念模型的进一步分解和细化逻辑模型是根据业务规则确定的关于业务对象业务对象的数据项以及业务对象之间关系的基本蓝图
逻辑模型的内容包括所有的实体和关系确定每个实体的属性定义每个实体的主键指定实体的外键需要进行范式化处理
逻辑模型的目标是尽可能详细的描述数据并不考虑物理上如何实现
3物理模型PDM物理模型是在逻辑模型的基础上考虑各种具体的技术实现因素进行数据体系结构设计真正实现数据在数据仓库中的存放
物理模型的内容包括确定所有的表和列定义外键用确认表之间的关系基于用户的需求可能要进行反范式化等内容
10、SCD常用的处理方式有哪些
slowly changing dimensions 缓慢变化维度
常见的缓慢变化维处理方式有三种
1直接覆盖不记录历史数据薪数据覆盖旧数据
2新加一行数据纵向扩展使用代理主键生效失效时间或者是代理主键生效失效标识保存多条记录直接新添一条记录同时保留原有记录并用单独的专用字段保存
3新加两个字段横向扩展一个是previous一个是current每次更新只更新这两个值但是这样职能保留最近两次的变化添加历史列用不同的字段保存变化痕迹因为只保存两次变化记录使用与变化不超过两次的维度
11、怎么理解元数据
传送门一篇文章搞懂数据仓库元数据分类、元数据管理 —— 一篇文章搞懂数据仓库元数据分类、元数据管理_不吃西红柿-CSDN博客
狭义来讲就是元数据就用来描述数据的数据
广义来讲除了业务逻辑直接读写处理的业务数据所有其他用来维护整个系统运转所需要的数据都可以认为是元数据
在数仓中元数据可以帮助数仓人员方便找到他们所关系的数据是描述数仓内部数据的结构和建立方法的数据。按照用途可分为技术元数据、业务员数据
技术元数据存储关于数据仓库技术细节的数据用于开发和管理数仓使用的数据业务元数据从业务角度描述了数据仓库中的数据提供介于使用者和实际系统之间的语义层使不懂计算机技术的业务人员也能读懂数仓中的数据
元数据管理功能
数据地图以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展示并通过不同层次的图形展现。元数据分析血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。辅助应用优化结合元数据分析功能可以对数据系统的应用进行优化。辅助安全管理采用合理的安全管理机制来保障系统的数据安全对数据系统的数据访问和功能使用进行有效监控。基于元数据的开发管理通过元数据管理系统规范日常开发的工作流程包括任务调度系统。
12、数仓如何确定主题域
主题是在较高层次上将数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上他是对企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式就是在较高层次上对分析对象的数据的一个完整并且一致的描述能刻画各个分析对象所涉及的企业各项数据以及数据之间的联系。
主题域通常是联系较为机密的数据主题的集合可以根据业务的关注度将这些数据主题划分到不同的主题域也就是说对某个主题进行分析后确定的主题的边界。
关于主题域的划分可以考虑几方面
1、按照业务或者业务过程划分比如一个靠销售广告位置的门户网站主题域可能会有广告域客户域等而广告域可能就会有广告的库存销售分析、内部投放分析等主题
2、根据需求方划分比如需求方为财务部就可以设定对应的财务主题域而财务主题域里面可能就会有员工工资分析投资回报比分析等主题
3、按照功能或者应用划分比如微信中的朋友圈数据域、群聊数据域等而朋友圈数据域可能就会有用户动态信息主题、广告主题等
4、按照部门划分比如可能会有运营域、技术域等运营域中可能会有工资支出分析、活动宣传效果分析等主题
总而言之切入的出发点逻辑不一样就可以存在不同的划分逻辑。在建设过程中可采用迭代方式不纠结于一次完成所有主题的抽象可先从明确定义的主题开始后续逐步归纳总结成自身行业的标准模型。
13、如何控制数据质量
传送门一篇文章搞懂数据仓库数据治理目的、方法、流程—— 一篇文章搞懂数据仓库数据治理目的、方法、流程_不吃西红柿-CSDN博客_数据仓库 数据治理
1校验机制每天对比数据量比如count(*)早发现早修复
2数据内容的比对抽样对比
3复盘、每月做一次全量
14、模型设计的思路业务驱动数据驱动
构建数据仓库有两种方式自上而下、自下而上
Bill Inmon推崇自上而下的方式一个企业建立唯一的数据中心数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图。要从整个企业的环境入手建立数据仓库要做很全面的设计。偏数据驱动
Ralph Kimball推崇自下而上的方式认为数据仓库应该按照实际的应用需求架子啊需要的数据不需要的数据不要加载到数据仓库中。这种方式建设周期短用户能很快看到结果。偏业务驱动
15、为什么需要数据仓库建模
数仓建模需要按照一定的数据模型对整个企业的数据进行采集整理提供跨部门、完全一致的报表数据。
合适的数据模型对于大数据处理来讲可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据减少不必要的数据冗余提高用户的使用效率。
数据建模进行全方面的业务梳理改进业务流程消灭信息孤岛更好的推进数仓系统的建设。
16、数据仓库建模方法有哪些
传送门一篇文章搞懂数据仓库四种常见数据模型 —— 一篇文章搞懂数据仓库四种常见数据模型维度模型、范式模型等_不吃西红柿-CSDN博客 17、数仓架构为什么要分层
分层可以清晰数据结构使用时更好的定位和理解方便追踪数据的血缘关系规范数据分层可以开发一些通用的中间层数据能够减少极大的重复计算把复杂的问题简单化屏蔽原始数据的异常下游任务没有感知异常【参考文献】
《数据中台让数据用起来》 《华为数据之道》《大数据之路阿里巴巴大数据实践》 csdn博客大牛、知乎大佬文章添加公众号「信息技术智库」 硬核资料20G8大类资料关注即可领取PPT模板、简历模板、技术资料 技术互助技术群大佬指点迷津你的问题可能不是问题求资源在群里喊一声。 面试题库由各个技术群小伙伴们共同投稿热乎的大厂面试真题持续更新中。 知识体系含编程语言、算法、大数据生态圈组件Mysql、Hive、Spark、Flink、数据仓库、前端等。 送书抽奖丨技术互助丨粉丝福利