Talend Open Profiler(拓蓝开源分析器)

数据分析(Data profiling)是检测现有系统中可用数据(如数据库,应用程序,文件等)并收集统计相关信息的过程。这种分析根据既定的目标或是整套标准来评估信息系统中使用的数据的质量等级

Talend Open Profiler 是一个精密但易于操作的开源数据分析器(open source data profiling)。它可以在极为复杂的数据结构中定位出数据所承载的信息,结构以及质量这些方面的具体情况。通过它,商务用户或是数据管理用户可以进行种类繁多的分析,完全按照自身业务的需要,针对要分析或监测的每一种数据元素,运用对应的整套规则,统计指数(indicator),数据模式(patterns)。不但对数据的分析可以持续不断地进行,期间还可以定期分析数据源所发生的变化来确保适时改善数据的质量。

现在就下载Talend Open Profiler!

需要了解更多的有关开源数据质量工具Talend Open Profiler的信息吗? 敬请观看 在线 demo 或阅读我们客户的 使用感言.

还不确定是需要 Talend Open Profiler 或是 Talend Data Quality吗? 查看 功能对比总表,解决您的所有疑问。

元数据发现

Talend Open Profiler连接到数据库中,检测它们的结构,并将它们元数据的描述信息存储到元数据管理专家中。

软件的过滤系统可以帮助用户只选择部分的表格或栏目来进行分析,在存在大量表格的情况下,这可以优化连接性能,并帮助数据分析人员将分析集中在最相关的数据部分上。

Talend Open Profiler: 元数据发现

然后,数据分析人员将使用这些元数据来进行数据库的比较和分析,并建立了评定数据质量的标准和指标,帮助用户评估所分析数据的质量情况,并决定是否需要进行数据清洗,数据集成或采取数据认责(stewardship)管理的措施。

另外,软件还配备了内嵌的 数据探测器(data explorer)使用户可以直接深入到所分析数据库的表格中,并使用行业标准的SQL查询语句来浏览这些数据。

自定义的业务规则

业务规则是一些具体的标准,临界值或取值范围,用来识别匹配记录,逻辑错误的记录(如年龄 < 0或者是小数)或者不匹配预定值的记录。

Talend Open Profiler: Custom business rules

软件提供专门的向导让您轻松设置自定义的业务规则来侦测数据质量,还可以让您使用标准的SQL语句来定义这些规则,甚至使用联接(join)条件来满足更为复杂的需要。这些数据质量规则可以按照需要定义质量指数的临界值,同时通过该款数据分析工具(data profiling tool),您还可以确立自定义的取值范围或是语句来测量所选表格中数据的质量。

数据模式(Patterns)

数据模式(Patterns)属于主数据(master data),用户要分析的数据都会通过比照它们来进行检测。对于常见的数据质量问题,软件提供已经预制的数据模式库(pattern library)供用户使用。

大量原生的预置模式(patterns)可以用来定义要分析的数据最常需要的形态

Talend Open Profiler: 数据模式

另外,使用正则表达式(Regular Expressions)或SQL语句,用户可以用完全个性化的模式来进行更加切题,更加细致的数据检测。

做分析的用户还可以分享他们自己设计或其他用户设计的模式,为此,从Talend Open Profiler的操作区域可以直接链接到Talend Exchange的平台上,Talend community的成员用户可以在此分享他们的成果。当要处理的模式数量非常巨大时,正则表达式或者SQL patterns还可以直接从CSV文件导入需要的模式。

统计指数

Talend Open Profiler: 统计指数

统计指数为您指示不同数据模式实施后的结果。他们定义所分析数据的内容,结构和质量,并可以通过依据数据匹配而展开的简单甚或高度复杂的操作,以及其它数据相关业务的操作来得出结果。

Talend Open Profiler可以提供大量的原生指数来帮助新用户进行数据分析(profiling)。这些指数包括:

  • 简单统计:只统计几个特定范畴的记录的数量,即行数,空值数,唯一值(distinct & unique)数量,重复值数以及空白数。
  • 文本统计:分析文本区域的特性,包括:最长,最短和平均长度。
  • 汇总统计对数字型数据进行统计分析, 包括各种平均值运算,众数,中间值,四分位间距和极差。
  • 高级统计:找出概率最大,频率最高的值并被为它们建立频度表。
  • 模式频度统计:计算每种模式(pattern)出现的最高和最低的频度。
  • Soundex频度统计:根据语音或声音建立记录索引。

在软件专用向导的帮助下,用户还可以借助标准的SQL或Java语句来建立自己个性化的统计指数,从而追踪新的质量指标或更为具体数据特性。

渲染(Rendering)

Talend Open Profiler: 元数据发现

在软件的分析编辑器中,Talend Open Profiler 直接为每个表,每个列,每个数据元素以及每个选定的统计指标,直接生成精密的报告和图表,让用户对数据分析的结果一目了然。