Datavines
是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane
开源组织的重点推荐项目,正式开源,欢迎大家使用。
定时获取数据源元数据,构造数据目录
定时监听元数据变更情况
支持元数据的标签管理
内置 27 个数据质量检查规则,开箱即用
支持 4 种数据质量检查规则类型
单表单列检查类型
单表自定义SQL
检查类型
跨表准确性检查类型
两表值比对检查类型
支持配置定时任务进行定时检查
支持配置 SLA
用于检查结果告警
支持定时执行数据探测,输出数据概览报告
支持自动识别列的类型自动匹配合适的数据概况指标
支持表行数趋势监控
支持列的数据分布情况查看
平台以插件化设计为核心,以下模块都支持用户自定义插件
进行扩展
MySQL
、Impala
、Starocks
、Doris
、Presto
、Trino
、ClickHouse
、PostgreSQL
Spark
和Local
两种执行引擎。Spark
引擎目前仅支持Spark2.4
版本,Local
引擎则是基于JDBC
开发的本地执行引擎,无需依赖其他执行引擎。MySQL
和 本地文件(仅支持Local
执行引擎)MySQL
、PostgreSQL
和 ZooKeeper
提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果
支持在线生成作业运行脚本,通过 datavines-submit.sh
来提交作业,可与调度系统配合使用
平台依赖少,容易部署
最小仅依赖 MySQL
既可启动项目,完成数据质量作业的检查
支持水平扩容,自动容错
无中心化设计,Server
节点支持水平扩展提高性能
作业自动容错,保证作业不丢失和不重复执行
CatalogManager
是负责管理元数据的组件,主要负责元数据的存储、查询以及元数据获取任务的调度和容错处理等。
DataQualityCenter
是负责数据质量管理的组件,主要负责数据质量规则的管理、数据质量作业的调度、执行和自动容错处理等。
进行数据概览只需下面3步:
进行数据质量检查只需下面4步:
Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。
Datavane
是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。
在 Datavane
社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。
官 网: http://www.datavane.org/
Github : https://github.com/datavane