[]
ETL,是 Extract(抽取)、Transform(转换)、Load(加载)作为数据处理流程的核心环节,其主要作用是将来自多源数据源的数据进行整合与处理,从而让这些数据契合数据分析、数据仓库建设等业务场景的要求。
随着数字化进程的加速,用户的数据处理需求愈发复杂多样。在数据建模阶段,为有效响应这些需求,系统特别提供了基于 ETL 查询获取数据的功能。借由 ETL 查询强大的数据处理能力,不仅能够实现对海量数据的高效清洗、转换与聚合,还能灵活定制数据处理逻辑,充分满足不同用户在数据筛选、格式转换、关联分析等多方面的个性化需求,为后续的数据应用夯实基础。
在模型设计器中,点击 获取数据->来自ETL查询,打开ETL查询设计器
将输入命令拖动到画布区域,选择数据源或数据集,作为数据输入的起点:
选择数据表对话框中,选择了数据源,用户可通过两种方式进行配置:
表:用户可直接从所选数据源中挑选特定的表,将其作为输入数据。这种方式操作便捷,适用于对数据源结构熟悉,且无需复杂数据筛选的场景,能快速获取完整的表数据。
自定义SQL:用户可自行输入 SQL 查询语句,系统会执行该语句,并将查询结果作为输入数据。此方式灵活性高,用户能够依据自身需求,运用 SQL 强大的查询和筛选功能,精准提取所需数据,实现复杂的数据处理逻辑。
选定输入之后,数据将参与后续的一系列处理。
type=info
应对不同的数据处理需要,可添加多个“输入”。
前面指定了输入,通过添加命令对数据进行进一步的加工,更详细的数据处理命令说明,请参考:ETL查询。
针对不同的处理需求,我们提供了三组命令供用户选择,用户将所需的命令拖到画布区域,通过连线与前序命令连接起来并设置:
添加对应的命令完成配置之后,点击“数据”页签来查看该命令的运行结果
type=warning
预览数据时,为了高效的相应用户的预览需求,默认显示1000行。
用户可通过窗口上方的下拉选单来选择需要显示的行数。
请注意,选择更多的行数对性能有一定的影响,请谨慎选择。
在数据处理流程中,每一条数据流都必然以 “输出” 命令作为收尾环节。“输出” 命令,其核心作用在于明确规定了用于输出 ETL 流程所产生结果数据的表格结构。
从数据完整性与有效性的角度考量,任何一个数据流都至少需要包含一个 “输出” 命令。
在抽取模型设计器中,ETL支持多个"输出"命令,多个输出命令对应多个数据表。
type=warning
ETL查询中必须包含至少一个“输出”命令,否则,ETL查询无法保存。
抽取模型的ETL查询可同时包含多个“输出”命令。
在ETL查询设计器中完成对数据的处理,并指定输出,点击“保存”,关闭ETL设计器后,进行数据的抽取。
关闭ETL设计器,开始进行数据的抽取,在抽取ETL数据的窗口中展示抽取的结果。点击“完成”关闭抽取ETL数据对话框并返回模型设计器。
点击“完成”,关闭抽取ETL数据对话框并返回模型设计器。
在左侧面板中,可以看到对应ETL查询所添加的表。
和其他创建模型表的途径相同,在模型表创建成功后,通过表间关联关系,及开展字段定义、数据约束设置等一系列后续操作,完成整个建模流程,确保模型表能够准确、高效地服务于业务需求与数据分析工作。