读序
数据仓库概念 数据仓库概念
元数据元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。 1 物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等
2023-01-13
大数据项目之尚品汇(11数据质量管理) 大数据项目之尚品汇(11数据质量管理)
第1章 数据质量管理概述1.1 数据质量管理定义数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等
2022-02-16
大数据项目之尚品汇(10元数据管理Atlas) 大数据项目之尚品汇(10元数据管理Atlas)
第1章 Atlas入门1.1 Atlas概述Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 Atlas的具体功能
2022-02-15
大数据项目之尚品汇(9权限管理Ranger) 大数据项目之尚品汇(9权限管理Ranger)
第1章 Ranger概述1.1 什么是RangerApache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。 随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,
2022-02-14
大数据项目之尚品汇(8安全环境实战) 大数据项目之尚品汇(8安全环境实战)
第1章 概述Hadoop启用Kerberos安全认证之后,之前的非安全环境下的全流程调度脚本和即席查询引擎均会遇到认证问题,故需要对其进行改进。 第2章 数仓全流程2.1 改动说明此处统一将数仓的全部数据资源的所有者设为hive用户,全流程
2022-02-13
大数据项目之尚品汇(7用户认证Kerberos) 大数据项目之尚品汇(7用户认证Kerberos)
第1章 Kerberos部署1.1 Kerberos概述1.1.1 什么是KerberosKerberos是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件
2022-02-12
大数据项目之尚品汇(6集群监控Zabbix) 大数据项目之尚品汇(6集群监控Zabbix)
第1章 Zabbix入门1.1 Zabbix概述Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,
2022-02-11
大数据项目之尚品汇(5即席查询Presto&Kylin) 大数据项目之尚品汇(5即席查询Presto&Kylin)
第1章 Presto1.1 Presto简介1.1.1 Presto概念 1.1.2 Presto架构 1.1.3 Presto优缺点 1.1.4 Presto、Impala性能比较https://blog.csdn.net/u012
2022-02-10
大数据项目之尚品汇(4可视化报表Superset) 大数据项目之尚品汇(4可视化报表Superset)
第1章 Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。 1.2 Supe
2022-02-09
大数据项目之尚品汇(3数据仓库系统) 大数据项目之尚品汇(3数据仓库系统)
第1章 数仓分层1.1 为什么要分层 1.2 数据集市与数据仓库概念 1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名_ _DIM层命名为dim_表名 DWD层命名为dwd_表名_ _DWS层命名为dws_表名 D
2022-02-07
大数据项目之尚品汇(2业务数据采集平台) 大数据项目之尚品汇(2业务数据采集平台)
第1章 电商业务简介1.1 电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意
2022-02-06
大数据项目之尚品汇数仓4.0 大数据项目之尚品汇数仓4.0
大数据项目之尚品汇(1用户行为数据采集)第1章 数据仓库概念数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫
2022-02-01