[]
        
(Showing Draft Content)

缓存数据集中添加ETL查询

1.功能概述

在缓存数据集中,通过ETL处理数据并输出为数据表,该数据表可与其他数据表无缝集成,支持后续的运算与分析操作。

2.功能入口

在缓存数据集设计中,通过点击“ETL查询”,打开ETL查询设计器。

image

type=warning

注意:

与数据模型不同,在缓存数据集中,仅能包含一个ETL查询。

2.ETL查询

2.1指定输入

将输入命令拖动到画布区域,选择数据源或数据集,作为数据流处理的起点:

image

选择数据表对话框中,选择了数据源,用户可通过两种方式进行配置:

  • 表:用户可直接从所选数据源中挑选特定的表,将其作为输入数据。这种方式操作便捷,适用于对数据源结构熟悉,且无需复杂数据筛选的场景,能快速获取完整的表数据。

  • 自定义SQL:用户可自行输入 SQL 查询语句,系统会执行该语句,并将查询结果作为输入数据。此方式灵活性高,用户能够依据自身需求,运用 SQL 强大的查询和筛选功能,精准提取所需数据,实现复杂的数据处理逻辑。

更多详细信息,请参考 ETL查询-输入

type=info

一个ETL查询中至少包含一个输入命令,作为数据流处理的起点。

一个ETL查询中可以包含多个输入命令,按需整合并处理数据,满足复杂业务场景需求。

2.2添加数据处理命令

指定了输入,通过添加一系列的数据处理命令对数据进行更进一步的加工,更详细的数据处理命令说明,请参考:ETL查询

针对不同的处理需求,我们提供了三组命令供用户选择,用户将所需的命令拖到画布区域,通过连线与前序命令连接起来并设置:

Demo

2.3查看命令运行结果

添加对应的数据处理命令并正确完成配置,切换到“数据”页签即可查看该命令的运行结果:

image

type=warning

预览数据时,为了高效的相应用户的预览需求,默认显示1000行。

用户可通过窗口上方的下拉选单来选择需要显示的行数。

image


请注意,选择更多的行数对性能有一定的影响,请谨慎选择。

2.4指定输出

在数据处理流程中,每一条数据流都必然以 “输出” 命令作为收尾环节。“输出” 命令,其核心作用在于明确规定了用于输出 ETL 流程所产生结果数据的表格结构。

image

type=warning

在ETL查询中必须包含至少一个“输出”命令,否则,ETL查询无法保存。

与模型设计器不同,在数据集设计器中,只能包含一个“输出”命令。

2.5保存并返回数据集设计器

正确配置了ETL查询,保存之后,关闭ETL查询设计器,将返回到缓存数据集设计器,输出的ETL查询结果数据表可直接参与后续的数据集设计。

image