CloudCanal 实现的 基于 Kafka 构建安全的跨互联网数据同步 方案被客户用于生产后,又出现了新的需求,主要集中在方案能否更加轻量化和可控性上,简而言之,去掉 Kafka 中转,直接在 CloudCanal 中实现跨网络安全互通。
本篇文章即介绍 CloudCanal 实现的更加轻量化方案,特点包括
去掉消息依赖的跨互联网数据库互通,我们是通过一个虚拟的数据源 Tunnel 实现。
Tunnel 数据源本身并不是实体数据库,而是一组逻辑信息,包括
通过这个虚拟数据源,我们可以使用 HTTP(S) 或 TCP 实现数据拉取或者接收数据的目的,同时完全匹配 CloudCanal 业务模型,达到功能的完整性。
对于数据传输模式 PUSH 或 PULL,我们选择了 PUSH 模式,即客户端将数据推送到服务端,本质原因在于
当然,PUSH 模式也带来一些问题,包括
对于上述两个问题,我们采用 延迟提交位点技术 解决
采用 PUSH 模式后,位点管理是比较复杂且危险的工作,如果提早提交位点,可能丢数据。
为此,我们实现了 延迟提交位点技术,即客户端每一次写入 server 端,只返回已经提交的位点,并且将所有数据源、所有任务类型的位点序列化成 json 字符串。
通过这项技术,我们能够确保位点之前的数据肯定已经写到对端,并且在某些业务场景下,通过客户端任务的位点回溯,达到重复消费某一段时间数据的目的。
因为使用了虚拟的 Tunnel 数据源,并且其带有 schema(存储于CloudCanal kv配置表中), 所以针对这个数据源,我们模拟了表结构获取和迁移的过程,让其在任务创建和运维过程中如同一个真实存在的数据库。
一个真实的 Tunnel 数据源的元数据如下:
[ { "db": "cc_virtual_db", "schemas": [ { "schema": "cc_virtual_schema", "tables": [ { "table": "WORKER_STATS", "columns": [ { "name": "ID", "jdbcType": -5, "typeName": "LONG", "key": true }, { "name": "GMT_CREATE", "jdbcType": 93, "typeName": "TIMESTAMP", "key": false }, { "name": "AUCRDT", "jdbcType": 93, "typeName": "TIMESTAMP", "key": false } ] }, { "table": "KBS_QUESTION", "columns": [ { "name": "ID", "jdbcType": -5, "typeName": "LONG", "key": true }, { "name": "CATEGORY", "jdbcType": 12, "typeName": "STRING", "key": false } ] } ] } ] } ]
我们可以通过结构迁移 (MySQL/SQLServer/Oracle -> Tunnel) 扩充它,或者直接通过 数据源管理->更多->查看配置->_**dbsJson **_进行修改。
本示例使用阿里云资源模拟杭州 RDS for MySQL 到深圳 RDS for MySQL , 两端数据库均不开公网端口,数据走互联网, 采用 HTTPS 传输和用户名密码认证。
目前支持哪些链路的互通?
Tunnel 到对端数据库能做结构迁移么?准备表结构比较麻烦
Tunnel 数据源有结构,能动态编辑么?
目前数据互通还存在什么问题?
本文主要介绍纯粹通过 CloudCanal 进行数据互通实践,通过引入虚拟数据源,达成数据互通和元数据映射等能力,具备不错的可落地性。