【V5.0 Update1】双驱数据建模引擎(1):抽取和直连数据模型介绍
本帖最后由 ZenosZeng 于 2021-11-23 09:23 编辑Wyn Enterprise V5.0 Update1版本来了,新版本又增强了非常多的功能,作为一个企业级商业智能和报表软件,数据建模能力是重中之重,更是数据分析和展示的基础,那么V5.0 Update1版本在数据建模方面增强了哪些功能呢?下面就给大家详细介绍一下。
相关文章:
【V5.0 Update1】双驱数据建模引擎(1):抽取和直连数据模型介绍
【V5.0 Update1】双驱数据建模引擎(2):抽取数据模型应用和功能详解
【V5.0 Update1】双驱数据建模引擎(3):直连数据模型应用和功能详解
Wyn Enterprise V5.0 Update1大幅增强了数据建模的能力,同时支持了抽取数据模型和直连数据模型,满足用户更多的数据分析场景,帮助用户更好的实现数据分析需求。
1.抽取数据模型和直连数据模型的功能
抽取数据模型和直连数据模型功能比较多,具体大家可以参考以下两个链接进行了解;
抽取数据模型,顾名思义就是对原始数据库数据进行抽取,并进行建模,抽取的数据存储到本地的数据仓库,以获得更快的分析速度和性能表现。
抽取数据模型:https://gcdn.grapecity.com.cn/fo ... 6334&extra=page%3D1
直连数据模型,相当于在数据模型层形成一个查询语句,这个查询语句直接作用于用户数据源。直连数据模型一定是单数据连接的模型。
直连数据模型:https://gcdn.grapecity.com.cn/fo ... 6352&extra=page%3D1
2.抽取数据模型和直连数据模型的本质
做商业智能BI分析绕不开的问题就是数据模型应该怎么选择,数据的时效性应该怎么选,应该按照什么样的标准来进行选择。
其实本质上抽取数据模型和直连数据模型对应的就是数据的时效性问题;抽取数据模型相当于离线数据,直连数据模型相当于实时数据。
数据从业务产生数据到分析数据整个过程中需要进行一系列的清洗,加工处理过程,在这个过程中所带来的时间窗口大小就是数据的时效性,按照数据延迟大小可以分为离线数据和实时数据。
2.1 离线数据
离线数据一般是指T-1的日期,例如今天的日期T=2021-11-12,那么数据结果中,能够体现的业务数据只包括前一天的(昨日数据)。有人也称之为T+1的数据,把数据日期当作T,叫法不同,但本质都是指的今天处理的数据最新日期是截止昨天。
当然离线数据也可以是处理历史的数据,对历史的数据进行分析统计。
2.2 实时数据
实时数据主要是指的数据延迟小,例如毫秒、秒、分钟级的延迟,小时级的延迟称之为“准实时数据“更为准确了。例如,你熬夜赶在双十一晚上的最后1分钟,成功付了尾款,在双十一实时统计大屏中,GMV的值又滚动了一下。
3. 抽取数据模型和直连数据模型的技术差异
3.1 抽取数据模型
抽取数据模型,在数据产生之后,不会立即对数据进行清洗,而是在固定的周期进行ETL,例如每天在凌晨12:00之后,处理前一天产生的数据,每月的最后一天,汇总本月产生的数据。
主要优点:
[*]能够处理的数据量巨大,从企业成立以来的历史数据,都可以存储、计算处理、分析应用。
[*]数据更准确,对于一些交易类的业务,存在订单状态流转,例如酒店,用户早上下了订单,但是下午有突发情况行程有变,取消了。在离线数据处理时,取当天订单成功状态,就不会计算在内。但对于数据漂移,即12点前下单,12点后取消的情况,就也无法统计到了,这种情形,在数据清洗任务处理时,可以采用全量更新的方式,每日更新全部数据,取最终的订单状态。
缺点:
[*]抽取数据模型的缺点也很明显,因为抽取时间间隔,产生的业务数据不能立即分析,需要等到下次抽取完成之后才能使用。
3.2 直连数据模型
直连数据模型是直接连着业务数据库,当业务系统产生新的数据之后,就会立即进行清洗处理。
主要优点:
[*]数据的时效性强,可以做到秒级或者毫秒级时延,所见即所得。
缺点:
[*]直连模型的性能主要依赖数据库服务器本身的性能,自助式分析性能会略差与抽取模型
4.抽取数据模型和直连数据模型适用的场景是什么,该怎么选择?
数据应用场景总结起来其实就两个,数据分析和数据应用。
数据分析场景:
4.1 业务经营分析,财务分析准确性大于时效性
[*]对于这类数据分析的场景,更在意的是能够更加准确地反映业务表现情况,即使T+1天后才可以看到数据也可以接受。尤其是财务结算,一般是月度结算或者季度财报,准确性是第一位的,可以选择抽取数据模型。
4.2 预警监控类分析,需要追求实时性
[*]对于预警监控类分析场景,数据如果隔天才能看到,肯定是不行,例如系统宕机了,生产设备停机了,如果隔天数据分析才发现,那么带来的业务损失就无法挽回了。因此对于此类场景,需要对指标进行最小延迟的预警监控,选择直连数据模型。
数据应用场景:
4.3 用户行为需要实时反馈
[*]双十一交易信息分析,用户的每一笔下单交易都要能够实时的显示出来,此类场景就需要选择直连数据模型。
4.4 用户运营及营销场景
[*]在用户运行或者用户营销类场景数据分析时,分析用户会员情况,流失用户召回情况等等,数据不是实时的对整体的影响不大,可以选择抽取数据模型
总的来说,在选择抽取模型和直连模型时,需要看具体的需求场景对数据的准确性,时效性的要求,来进行灵活的选择。以最小的资源成本来实现业务场景需求,而不是一味的追求实时数据分析,或者永远是历史数据分析。
:i0tw:
欢迎加入 Wyn Enterprise 官方QQ群下载预览版本,并与大家讨论新特性应用技巧,QQ群号(869635873)。
页:
[1]