ETL for Analytics(ETL分析)
ETL(Extraction, Transformation and Loading)进程是一套商务智能基础设施组件最为核心和最具价值的部分。它虽然通常不为BI平台的用户所见,但承担着从各个操作系统中找回并提取数据,继而为分析和报告工具将数据进行预处理的任务,是整个BI平台准确性和时效性的真正保证。
现在就查看更多TalendETL解决方案。.
什么是ETL?
Extraction, Transformation and Loading(萃取,转置和加载) 这些进程包含多个步骤,用于将数据从生产应用程序传输到商务智能系统(BI)中:
- 从生产应用程序和数据库中萃取数据。(ERP,CRM,RDBMS,文档等等)
- 数据转置。调节所有源系统的数据,计算并进行字符串解析,通过外部查找完善信息,并按照目标系统的要求匹配格式 (Third Normal Form, Star Schema, Slowly Changing Dimensions, etc.)
- 将最终数据加载到各种BI应用程序中。包括数据仓库或企业数据仓库,数据集市,联机分析处理(OLAP)应用程序或者多维数据“立方体(cube)”。
ETL的延迟根据对象的不同而不同,可以是批文档延迟(有时按月,有时按周,但通常是按日),也可以是准实时延迟,此时更新频度更高(每小时,没几分钟等)。
ETL的挑战
实施高效可靠地ETL处理进程,要面临大量的挑战。
- 数据规模成幂数增长。ETL进程必须处理大量的颗粒数据(已销售产品,电话,银行交易等)。有些BI系统只允许增量升级,而另一些则要求每次循环时都必须重新加载全部数据。
- 信息系统日益复杂,资源差异也随之变得日益显著。ETL进程必须拥有全面的连接能力才能与打包应用程序(ERP,CRM等),数据库,大型机,文档,Web服务等取得有效连接。
- 商务智能的结构和应用程序包括数据仓库,数据集市,OLAP应用程序——用于分析,报告,仪表板控制,计分卡等等。所有这些作为目标结构都有不同的数据转置需求,延迟也因此不同。
- ETL进程提供的转置有可能相当复杂。数据需要聚集,解析,运算,统计处理等等。特定的BI转置如慢速变化维也必须满足。
- 由于BI系统的完全时效性(timeliness)发展趋势,数据仓库和数据集市都需要更为频繁的更新,同时加载的时间窗口变得越来越短。
ETL开源数据集成解决方案
Talend数据集成解决方案是企业级别执行ETL的最佳选择。它在ETL进程的设计,开发,执行和维护中有如下重要特色:
- Business-oriented process modeling(面向业务建模) 支持所有的业务相关参与者,确保了IT服务与业务运营的紧密合作。
- Fully graphical development environment(全面周到的图形开发环境) 运用商用硬件网格技术,为您提供目前市场上唯一的ETL+ELT双重架构。
- Highly scalable and fast execution (可扩放性和快速执行) 启用商用硬件(commodity hardware)网格技术,同时使用 ETL + ELT 架构的解决方案。
- Broadest connectivity(广泛连接) 支持所有系统,可以轻松连接到所有生产数据和添加新的源系统。
- Built-in advanced components(内建高级组件) 这些ETL组件包括字符串处理,慢速变化维,自动查找处理,大量载入(string manipulations, Slowly Changing Dimensions, automatic lookup handling, bulk loads support)等。
)