Talend Data Quality(拓蓝数据质量)

数据质量工具不仅可以帮助企业的信息系统存取正确的数据,还可以帮助它剔除错误,损坏或重复的数据。拥有清洁的数据是成功集成各个系统信息数据的关键,但错误信息却总能迅速孳生蔓延——不仅只在常见的企业系统内部,还会感染商务伙伴的系统。因为今天的信息系统彼此相连,不良数据如同病毒,随着移动的软硬件设备迅速传播,从而错误信息可以迅速蔓延到其它的应用程序。此时受损数据所引发的成本损失是不可估量的,这可能包括失去订单,浪费生产力,丢失信誉,损害商誉,乃至错失良机。

想要了解更多有关开源 Talend Data Quality 的信息吗?敬请观看在线 demo 或阅读使用感言

还不能确定是使用开源 Talend Open Profiler 还是使用 Talend Data Quality吗?参看 功能对比总表,疑惑迎刃而解。

数据分析(profiling)

提高一个企业数据质量的第一步就是要“profile”或者说评估这些数据。数据分析器(profiler)是一种精密但易于掌握的基于UI的先进系统,它的优势就在于它并不需要理解数据库的引擎和文件结构。商务分析师或者其他非技术人员可以使用这种开源的数据分析工具(open profiling tool),为要分析或监测的每一个数据元素设置专门的指数,模式(patterns)或者业务规则。这些指数既可以属于简单统计或高级统计,也可以属于模式频度统计或soundex频度统计,还可以是文本串分析(text string)和数值分析(numeric analysis),并包括汇总数据(summary data)和记录统计分布(statistical distribution of records)。它们都是预先已经设置的,十分方便,但您同时也可以运用您自定义的表达式来规范您自己个性化的数据分析形式;其中的业务规则则用来帮助用户设置自己需要的一些业务方面的指标,取值的范围。

Talend Data Quality: 开源数据性能分析

通过不断定期总结分析这些指标计量值(metrics)的变化,企业就可以追踪到这些指标的变化趋势,从而了解数据的状况(profile),追踪到数据质量的变化趋势(改善或是退化)。

Talend Data Quality 包括的其它分析和报告功能包括:

  • 数据分析历史记录
  • 批量分析
  • 报告模式个性化
  • 多选报告文件格式。

数据清洗

Talend Data Quality: 开源数据清洗

一旦问题区域锁定,数据必须修正。对于不符合您标准的数据,Talend Data Quality 提供给您强大的修复和清理工具。所有数据将会通过一道“数据质量防火墙”,不完整的值会被记录下来:格式不正确或与其他数据源记录的值不匹配的值,重复的值,同义重复的值,甚至简单的排录错误——所有这些数据都将通过参照数据或依据其它数据库进行交互检验来修复。 通过 Talend Data Quality 您可以使用引用数据(reference data)来设置标准值,使用正则表达式来设置数据标准的形状和大小,以及使用匹配算法来查找和修复您的数据中重复和几乎重复的部分。

您可以使用种类繁多的数据集成和数据质量专用组件系列来建立各种清洁进程。这些专用组件,如名称与地址清洗组件,模糊去重组件,都是 Talend Data Quality 的原生组件。

数据扩充

Talend Data Quality: 开源数据扩充

数据扩充功能可以补充您数据里缺少的部分,因此您仍然可以实现您的业务目标。而这些信息的类型是无限的——可以包括一个公司的邓白氏(Dun & Bradstreet)信誉信息或某个客户的信誉评级,获取某个地址的经纬度以便设计投递线路,或是收集目标人群的人口组成或收入类型的普查信息。初始的开发环境有利于用户在同一个环境中开发出多个完美的进程,用这些进程将数据整合(consolidate),合并(merge)或简单插入(insert)到目标系统中。

分析门户

Data Quality Portal(数据质量门户)以web为基础,提供用户个性化的时间质量监测和报告体系,这使得企业组织可以随时查看可能对业务流程产生重要影响的关键数据的质量标尺。

Talend Data Quality: 分析门户

Data Quality Portal 将各种自定义的关键质量指数(KQI)发送到专门的web门户上,整个团队可以通过这个门户展开合作,改善整个企业的数据质量状况。它配备有:PDF 报告生成, 用户自定义仪表盘,即席查询(ad-hoc query),以及基于时间的KQI监测。通过该门户,用户还可以读取一整套预置的报告及全局质量计量体系,反映了超出数据质量临界值的情况。

数据质量与数据整合

Talend Data Quality: 数据质量与数据整合

由于所有Talend产品都分别只是同一个一体化平台的一部分,所有的数据质量功能都可以完全与Talend Integration Suite融为一体,而且同 Talend MDM 结合起来,还可以提供给用户持续的人性化设计,快速的学习曲线和高水平的开发利用率。这在资源优化和利用方面,以及项目的一致性方面都带来了无与伦比的正面效果。

一体化平台的核心功能包括:

  • 开发过程只需要一个基于Eclipse的studio:如转置和验证规则,业务规则,表达式,变量,joblets等对象都可以非常轻易的在工程之间重复利用。
  • 共享的元数据储存库 促进了关键信息资产的共享。这些资产包括:用户数据,应用程序元数据,业务模型,业务规则,转换和验证规则,连接器,数据验证和工作流程。
  • 统一的部署环境:其中包括确保高可用性(high availability)的分布式执行模型,多用监控台和实时执行报告。