背景:客户的数据源有多种,且现有存量数据在 6 亿级别,我需要同步它的数据到我这边的物理表,理想的是,首次全量同步,而后增量实时同步。
现状 demo 方案:拿 mysql 来举例:
已经实现了 mysql -> flink cdc -> kafka -> mysql
基于 400w 的数据量,监测到任务启动那会,对客户的表 mysql-source cpu 骤然爬升 20%+。
现在顾虑:
1. 6 亿的数据量,到时候直接全量同步会对客户的数据库造成很大压力,说不定会搞崩。
2. 也调研过 datax ,但是如果使用这个估计就是按照 id 每日分批跑,跑完还得衔接 flink cdc 实现流数据的同步。
3. 使用 flink cdc 需要开启 binlog 权限,可能客户不愿接受这点要求。
4. ld 现在可接受不是实时同步,唯一要求就是不能对客户数据库造成压力。
各位佬,有其他更好的方案说说嘛?感谢!
现状 demo 方案:拿 mysql 来举例:
已经实现了 mysql -> flink cdc -> kafka -> mysql
基于 400w 的数据量,监测到任务启动那会,对客户的表 mysql-source cpu 骤然爬升 20%+。
现在顾虑:
1. 6 亿的数据量,到时候直接全量同步会对客户的数据库造成很大压力,说不定会搞崩。
2. 也调研过 datax ,但是如果使用这个估计就是按照 id 每日分批跑,跑完还得衔接 flink cdc 实现流数据的同步。
3. 使用 flink cdc 需要开启 binlog 权限,可能客户不愿接受这点要求。
4. ld 现在可接受不是实时同步,唯一要求就是不能对客户数据库造成压力。
各位佬,有其他更好的方案说说嘛?感谢!