本帖最后由 Eden.Sun 于 2023-1-5 18:12 编辑
Wyn 6.1在抽取模型上进行了更新,支持在现有抽取模型上做增量更新,节省频繁重复抽取数据的资源,用户可配置按需更新数据。
数据更新一般是全量更新和增量更新这两种形式,那么什么是全量更新?什么是增量更新?
全量更新:简单来说,就是在一定的周期中,把当前系统在周期时间内所有数据复制到目标表/系统这样的同步方式就叫做—>全量
增量更新:增量的基础是全量,就是你要使用某种方式先把全量数据拷贝过来,然后再采用增量方式同步更新。增量的话,就是指抓取某个时刻(更新时间)或者检查点(checkpoint)以后的数据来同步,不是无规律的全量同步
增量更新相对于全量更新在数据层面最大的优势就是数据加载性能的提升,增量更新的特点:1.只更新需要更新的地方;2.相对于完全更新更快捷,处理量减少;3.采用增量更新需要在更新前设定规则,规定更新的策略;
为什么要配置增量更新字段?
对于缓存在模型中数据,每次更新都进行完全提取,势必会浪费大量的资源和时间。实际上,对于一些没有更新的历史数据,是不需要刷新甚至是需要清理的。因此,Wyn抽取模型支持了多种数据更新方式。除了全量抽取更新外,还可以进行增量抽取、通过时间节点来进行数据的增量更新, 更新指定时间至今的数据、清理指定时间之前的数据等
实际场景就是在进行历史数据分析的时候,不需要对所有的历史数据进行分析,只需要根据时间业务需求,对上一个月、上一个季度、上一年的数据进行分析,那么就可以使用增量更新,根据时间字段来设置增量更新。
下面就是敲黑板的地方了,来看看Wyn的抽取模型如何实现增量更新:
1、打开Wyn的设计器,进行数据源绑定
2、为仪表板创建数据集,数数据集选择抽取模型
3,选择数据源
4、创建抽取模型
5、抽取模型根据主外键之间的关系自动创建好模型
6、进行增量更新设置
在数据模型设计器中,选择增量更新的表,然后选择标记字段。 这里选择的标记字段必须自增数据列(如时间戳、自增序号等)。
- 当您选择一个非日期/日期时间类型的字段作为标记字段时,可在手动(手动更新)或运行计划(自动更新)中使用纯增量抽取功能,不能更新已有的数据。
-
选择一个日期/日期时间类型的字段作为标记字段时,在手动抽取中能增量抽取(手动更新),在运行计划中不仅可以增量抽取还可以更新或清理已有数据(自动更新)
7、增量更新设置好之后,下次进行数据抽取的时候就基于增量属性和设置时间增量更新对应时间节点的数据,提升了数据更新的性能、加快了数据处理的速度
|