数据质量工具不仅可以帮助企业的信息系统存取正确的数据,还可以帮助它剔除错误,损坏或重复的数据。拥有清洁的数据是成功集成各个系统信息数据的关键,但错误信息却总能迅速孳生蔓延——不仅只在常见的企业系统内部,还会感染商务伙伴的系统。因为今天的信息系统彼此相连,不良数据如同病毒,随着移动的软硬件设备迅速传播,从而错误信息可以迅速蔓延到其它的应用程序。此时受损数据所引发的成本损失是不可估量的,这可能包括失去订单,浪费生产力,丢失信誉,损害商誉,乃至错失良机。
想要了解更多有关开源 Talend Data Quality 的信息吗?敬请观看在线 demo 或阅读使用感言。
还不能确定是使用开源 Talend Open Profiler 还是使用 Talend Data Quality吗?参看 功能对比总表,疑惑迎刃而解。
数据分析(profiling)提高一个企业数据质量的第一步就是要“profile”或者说评估这些数据。数据分析器(profiler)是一种精密但易于掌握的基于UI的先进系统,它的优势就在于它并不需要理解数据库的引擎和文件结构。商务分析师或者其他非技术人员可以使用这种开源的数据分析工具(open profiling tool),为要分析或监测的每一个数据元素设置专门的指数,模式(patterns)或者业务规则。这些指数既可以属于简单统计或高级统计,也可以属于模式频度统计或soundex频度统计,还可以是文本串分析(text string)和数值分析(numeric analysis),并包括汇总数据(summary data)和记录统计分布(statistical distribution of records)。它们都是预先已经设置的,十分方便,但您同时也可以运用您自定义的表达式来规范您自己个性化的数据分析形式;其中的业务规则则用来帮助用户设置自己需要的一些业务方面的指标,取值的范围。
通过不断定期总结分析这些指标计量值(metrics)的变化,企业就可以追踪到这些指标的变化趋势,从而了解数据的状况(profile),追踪到数据质量的变化趋势(改善或是退化)。 Talend Data Quality 包括的其它分析和报告功能包括:
数据清洗
一旦问题区域锁定,数据必须修正。对于不符合您标准的数据,Talend Data Quality 提供给您强大的修复和清理工具。所有数据将会通过一道“数据质量防火墙”,不完整的值会被记录下来:格式不正确或与其他数据源记录的值不匹配的值,重复的值,同义重复的值,甚至简单的排录错误——所有这些数据都将通过参照数据或依据其它数据库进行交互检验来修复。 通过 Talend Data Quality 您可以使用引用数据(reference data)来设置标准值,使用正则表达式来设置数据标准的形状和大小,以及使用匹配算法来查找和修复您的数据中重复和几乎重复的部分。 您可以使用种类繁多的数据集成和数据质量专用组件系列来建立各种清洁进程。这些专用组件,如名称与地址清洗组件,模糊去重组件,都是 Talend Data Quality 的原生组件。 数据扩充分析门户数据质量与数据整合由于所有Talend产品都分别只是同一个一体化平台的一部分,所有的数据质量功能都可以完全与Talend Integration Suite融为一体,而且同 Talend MDM 结合起来,还可以提供给用户持续的人性化设计,快速的学习曲线和高水平的开发利用率。这在资源优化和利用方面,以及项目的一致性方面都带来了无与伦比的正面效果。 一体化平台的核心功能包括:
|