Azure Synapse Analytics 中的湖数据库使用户能够将数据库设计、有关存储的数据的元数据信息,以及描述数据的存储方式和存储位置的可能性结合起来。 湖数据库解决了当前数据湖的难题,即很难理解数据的结构。

解决数据设计的问题

        借助新的数据库设计器,你能够为你的湖数据库创建数据模型,并向其中添加更多信息。 可以对每个实体和属性进行描述,以提供有关模型的更多信息,这不仅包含实体,还包含关系。 特别是,缺少模型关系对于数据湖的交互是一项挑战。 现在,我们使用集成的设计器解决了这一难题,该设计器提供了在数据库中已有但在湖上没有的可能性。 此外,还可以向模型添加说明和可能的演示值,使将来与之交互的人员能够根据需要获得信息,以更好地了解数据。

解决数据存储的问题

        湖数据库在 Azure 存储帐户上使用数据湖来存储数据库的数据。 数据可以存储为 CSV 格式的 Parquet,不同的设置可用于优化存储。 每个湖数据库都使用链接服务来定义根数据文件夹的位置。 对于每个实体,默认情况下,在数据湖上的此数据库文件夹中创建单独的文件夹。 默认情况下,湖数据库中的所有表都使用相同的格式,但如果有要求,每个实体的数据格式和位置都可以更改。

解决计算一体化问题 

        湖数据库在 Synapse SQL 无服务器 SQL 池和 Apache Spark 中公开,为用户提供将存储与计算分离的功能。 与湖数据库关联的元数据使得不同的计算引擎不仅可以轻松地提供集成体验,还可以使用数据湖上原本不支持的额外信息(例如,关系)。

行业数据模型是什么?

        Azure Synapse Analytics 为各个行业提供标准化的数据库模型,方便用户随时根据组织需求使用和创建数据库模型。 这些模型包含丰富的元数据,可以逐渐增强对数据模型的理解。 使用这些模型创建湖数据库,并使用 Azure Synapse 分析运行时为业务用户提供见解。

        下面将简述 Azure Synapse 中的湖数据库模型相关的概念。 使用这些模型创建包含丰富元数据的数据库,以便更好地进行了解并提高工作效率。

业务领域模型

        业务领域模型为业务或主题领域提供最全面且最精细的数据视图。 业务领域模型也称为主题领域模型或域模型。 业务领域模型包含与行业内的特定业务相关的表和列。 组织中的数据专员、数据治理团队和业务团队可以使用业务领域模型来构建以业务为中心的数据架构,以便详细传达业务需求和范围。 每个业务领域模型都是根据相应行业企业数据库模型中的一组常见实体构造的,这是为了确保业务领域模型具有与其他行业模型一致的常用键、属性和定义。 例如,会计与财务报告、营销、预算与预测是许多行业(如零售业或银行业)的业务领域模型。

企业模型 

        企业数据库模型包含很可能是特定行业内的组织感兴趣的表的子集。 它提供综合概述,并描述相关业务区域模型之间的连接性。 这些模型用作许多类型的大项目的加速器。 例如,银行模型有一个称为“银行”的企业模型。

表是一个独立存在且不同于其他对象的对象。 例如,Customer、Store、Channel 等。

每个表由一组列进行描述。 每个列都有名称、说明、数据类型,并且与表相关联。 数据库模型中大约有 30,000 列。 例如,CustomerId 是 Customer 表中的列。

主密钥

主键有助于以独一无二的方式标识整个表。 它必须以独一无二的方式标识表中的元组。 例如,CustomerId 列上的键强制实施唯一性,以标识 Customer 表中的每个客户。

外键

外键是其值与另一表中的主键匹配的列或列的组合。 它有助于在两个表之间建立链接。 例如,Transaction 表中的 CustomerId 表示已完成某个交易的客户。 外键始终与主键(例如,Customer 表中的 CustomerId 主键)有关系。

组合键

组合键是由两个或两个以上的列组成的,这些列必须组合在一起才能以独一无二的方式标识表。 例如,在 Order 表中,可能需要使用 OrderNumber 和 ProductId 来以独一无二的方式标识某个记录。

关系

关系是任意两个表之间的关联或交互。 例如,Customer 表和 CustomerEmail 表彼此相关。 一个关系涉及两个表。 有一个父表和一个子表,它们通常通过外键进行连接。 可以说关系是从表到表的。

表分区

使用湖数据库,可以为表进行基础数据分区,以提高性能。 可以在数据库编辑器的表存储设置中设置分区配置。

 

原文链接:Azure Synapse lake database concepts - Azure Synapse Analytics | Microsoft Docs