[]
在数据准备阶段,为提高数据加工的效率,Wyn 在缓存数据集和抽取模型中增加了ETL(抽取、转换、加载)能力,将来自多元数据源的数据进行整合与处理,通过数据的输入,清洗、转换,再输出。提供数据筛选、数据字段类型、行列转换、聚合、去重、合并列、拆分列、联合、连接等数据加工能力,快速满足用户不同场景的数据加工需求。
缓存数据集和抽取模型支持通过ETL查询加工数据。
缓存数据集 | 抽取模型 | |
---|---|---|
入口 | ||
区别 |
|
|
本节为您介绍ETL查询设计器及其使用方法。
以下为您介绍ETL设计器。
在左侧的命令面板中,列举出了所支持的数据处理命令,用户通过拖拽将命令拖至右侧画布区域并进行配置,完成ETL查询。
用户将命令拖拽至右侧画布区域,通过连线将命令连接起来,点击起始命令右侧的小圆点,不要释放鼠标,移动到目标命令的箭头区域,释放鼠标,我们可以看到有一条虚线,表示两个命令被连接起来。
将命令与前序命令连接之后,选中需要配置的命令,命令配置区域会展开在设计器的下方,根据说明及提示完成相应的配置
正确完成配置之后,命令之间的连线将变为实线
这时,在命令配置区域切换到“数据”页签,即可查询该命令的计算结果:
当画布区域中包含较多命令时,缩略图提供了一个综合视角,可通过拖动方框,快速定位到对应区域
为确保用户获得更优的使用体验与系统性能,ETL查询默认基于缓存机制执行。通过缓存数据,系统能够显著提升查询效率,减少对底层数据库的直接访问,从而降低系统负载并加快响应速度。
“运行”即生成缓存,提供了以下两种运行模式:
快速运行
点击菜单栏中的“运行”按钮,系统将执行“快速运行”操作。该操作基于已有缓存数据,无需重新与数据库进行交互,可显著提升执行效率。
添加命令并正确完成配置,当用户切换至命令的“数据”页签,生成缓存并预览,这与直接点击菜单栏中的“运行”按钮行为一致。
快速运行是基于已有的缓存来进行的
清空缓存并重新运行所有命令
通过清空缓存并重新运行所有命令,系统将从选定数据源中获取最新数据,并以此更新缓存。此操作适用于需要同步最新数据的场景。
type=warning
注意:
缓存的有效期为30分钟。缓存失效后,命令的计算结果将无法预览。此时,需手动点击“运行”按钮,重新执行所有命令以生成新的缓存数据。
为优化性能,系统默认预览结果显示1000行数据。用户可通过菜单栏中的行数设定来自定义预览行数。
type=warning
注意:
设置过大的预览行数可能导致系统响应延迟,请根据实际需求谨慎选择。
系统提供命令检索功能,帮助用户快速定位特定命令。
点击菜单栏中的“检索”按钮,输入关键字后,按下回车键,系统将自动匹配并选中相关命令。若检索到多个结果,可通过上下箭头或继续按下回车键进行切换。
输入命令和输出命令为必填项。输入命令用于获取待处理的数据,而输出命令则将处理结果保存至缓存数据集或抽取模型,供后续数据分析使用。
保存规则
若未配置输入命令或输出命令,系统将禁止保存,此时“保存”按钮为不可用状态。
正确设置输入命令、输出命令及相关数据处理命令后,点击“保存”按钮即可完成ETL查询的保存。
通过拖拽,将设计器左侧的命令节点拖拽到右侧是画布区域。
通过拖拽,通过有箭头的连线将节点与其它节点联系起来,箭头的起点为前序节点,前序节点的输出结果是后续节点的输入。
在未完成后续节点的配置之前,连线为虚线,且未完成配置的节点的右上角将标记一个黄色的警告图标。当正确完成了配置之后,连线变为实线,警告图标也会消失。
选中需要修改的节点,在下方的配置面板中进行修改即可。
当前序的一系列节点中某个节点发生了配置变化,将导致后续节点不可用,会在节点图标的左上角显示红色错误提示,同时,他们之间的连线也会变成虚线。
用户需要根据提示对配置不正确的节点进行修复。
鼠标悬停至所需要删除的节点,点击右上角的删除按钮即可。
删除节点之后,会导致被删除节点的后续节点无法正常工作,用户需要根据需求重新进行连线及配置。
通过鼠标拖拽,框选选中多个节点,可通过弹出的上下文菜单完成批量删除节点的动作。
鼠标悬停至连线,在连接线上将显示删除图标,点击即可。
删除连接线之后,会导致后续节点无法正常工作,用户需要根据需求重新进行连线与配置。
框选选中节点之后,在弹出的上下文菜单中点击复制,可以复制选中的节点。