这可能是全网最全的数据仓库建设方法论!
为了解决多数据源导致的口径不一致、数据无关联、数据质量差、缺少历史数据、开发效率低等问题,企业需要构建企业级数据仓库,对数据进行规整和高效利用。除此以外,由于直连业务系统支撑多方报表导致读写交叉性能降低,影响正常业务系统使用的问题也可解决。
构建企业级数据仓库的步骤分为调研、数仓设计、数仓实施和测试上线四个主要环节。
调研前期,需要明确本次项目在此阶段成功的要素,其次是划分责任矩阵,收集相关资料并制定合适的调研策略。与用户需求相关的信息应该足够的详细。最终要交付给最终用户项目计划及需求说明,需要的情况下需要制定灾备计划,以便数据仓库可以从事故中恢复。
调研责任矩阵
调研执行分为四步骤:
第一步对本次项目的目标,整体平台的范围和当前IT的技术架构进行调研与整理;第二步针对本期项目涉及业务部门进行单独访谈,明确指标,确认口径,梳理前端样式与功能并确定相应的数据标准;第三步可根据上一轮调研结果所设计的蓝图进行确认和修改并在数据侧对底层数据进行探源;最后将调研结果与方案蓝图进行最终的多方确认并审核签字。
这一阶段的交付物为系统蓝图框架与当前数据基础和质量情况表等,具体的执行过程见下图:
指标确认框架
数仓构建的核心工作是分层及建模,分层架构设计是为应用数据资源采集、存储、处理和交换提供建设性依据,而数据模型将决定数据仓库系统的增长性和性能,数仓一般分为 ODS(贴源层)层、DW 层(数据仓储层)、DM 层(数据集市层)三层架构,依据企业实际情况会有所调整,而数仓模型大多采用维度建模和范式建模。
数据分层:
每一个数据层都有它的作用域,在使用表的时候能更方便地定位和理解,因此需要针对数据进行分层建设,且数据分层也利于数据血缘追踪、屏蔽原始数据的异常,通过开发一些中间层,还可以起到减少重复开发的作用。
数仓通用技术框架
数仓建模的流程:
数仓模型的设计,按照概念模型(主题域模型)——逻辑模型——物理模型的流程进行,逻辑模型和物理模型通常采用维度建模的办法,以星型和雪花型模型来组织数据,维度建模的两个基本元素是事实表和维度表。而维度建模也分为确定业务主题、定义粒度、确定维度和确认事实表四个步骤。该阶段的交付物为针对数据源的概念模型、逻辑模型和物理模型。
数仓建模一般流程
DWD层维度建模步骤
ETL过程常常需要最长的项目时长,可能会占用数仓开发的50%及以上,因为获取源数据、理解业务规则、逻辑和物理数据模型需要花费大量时间。ETL 通过从源系统数据库实时同步数据至数据仓库贴源层,基础层、通用层、应用层基于贴源层的增量数据以实时指标加工的规则进行定时(T 1 天)加工处理。
ETL过程
测试上线
测试上线的主要目的是为了测试当前数仓开发完毕后数据是否准确,数据相应的速度是否及时,包括 ETL 任务的各环节是否出现异常等,测试完毕通过业务确认后即可上线。
数据规范
数仓建设的规范是为了后续开发人员可以遵从规范,培养良好的习惯,也可以提升数仓开发的可维护性,便于用户的沟通及交流。数据规范的内容包括数仓设计规范、命名规范、ETL 规范、报表规范等,数据规范建设为后续的数据治理及数据资产的管理建立了良好的基础。
数仓规范文档
赵公子买单是什么梗?赵公子是何许人也
导语:网络语赵公子买单出自电影《大人物》中的一句台词,当时的场景是包贝尔饰演的集团公子赵泰,在酒吧途径舞台,向DJ说了一句“今晚所有的消费由赵公子买单”,后来就从抖音上火起来,变成了一个梗,探秘志带大家一起看看。赵公子买单是什么梗我要新鲜事2023-05-09 18:04:530003后羿射日并不是神话 140万年后 太阳系将迎来第二颗恒星
来自巨蛇座的一颗红矮星正在以惊人的速度朝太阳系靠近。距离地球62光年的这颗红矮星被称为格利泽710,科学家通过欧洲航天局的依巴谷卫星发现了它。格利泽710是一颗质量较大的红矮星,相当于太阳质量的60%,体积大约是太阳的40%-60%。尽管它亮度较低,但红矮星的寿命却非常长久,有些甚至能维持数百亿年。通常情况下,恒星都按照稳定的轨道运行。我要新鲜事2023-10-26 17:16:270001半人马座阿尔法星位置 半人马座有生命吗
导语:半人马座阿尔法星是距离地球最近的十大恒星之一,是半人马座中的一等大星,目前科学家正在通过研究和观察半人马座阿尔法恒星的植物信号,来发现半人马座阿尔法星上是否有生命存在,但是目前还没有太大的进展,下面就和探秘志一起了解下这个特别的星球。半人马座阿尔法星位置我要新鲜事2023-05-09 18:59:090001爱因斯坦在自己去世之前,为啥要把自己的笔记烧毁?
爱因斯坦的笔记本当中可能有人类不知的秘密但凡提到我们地球上最伟大的科学家,相信会有非常多的人脱口而出就是爱因斯坦,这些伟大科学家的存在也是因为他们的一些研究和理论改变了人类的生活方式,只不过这些科学家看起来非常的奇怪,尤其是爱因斯坦,明明他给人类留下了那么多的理论和难题,但是让人们非常难以理解的是,为什么他会在自己年迈的时候把自己的笔记给撕毁了。我要新鲜事2023-05-15 03:53:580000两个卵子就能繁育后代?未来人类不需要男人,可以自行生育吗?
我们都知道大部分生物的繁殖都是需要雌性和雄性的,这两个生物体才可以进行结合,共同孕育后代。可是在科学家的手上,虽然是没有雌性和雄性,也是可以实现孕育后代这种可能性的。科学家曾经使用过两个京紫进行了实验,虽然成功诞下了小鼠,可是诞生的后代之后存活不久就去世了。我要新鲜事2023-05-14 00:02:370005