请教一下各位佬，关于 ETL 落地技术方案的讨论 - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 308 days ago, the information mentioned may be changed or developed.

背景：客户的数据源有多种，且现有存量数据在 6 亿级别，我需要同步它的数据到我这边的物理表，理想的是，首次全量同步，而后增量实时同步。

现状 demo 方案：拿 mysql 来举例：
已经实现了 mysql -> flink cdc -> kafka -> mysql
基于 400w 的数据量，监测到任务启动那会，对客户的表 mysql-source cpu 骤然爬升 20%+。

现在顾虑：
1. 6 亿的数据量，到时候直接全量同步会对客户的数据库造成很大压力，说不定会搞崩。
2. 也调研过 datax ，但是如果使用这个估计就是按照 id 每日分批跑，跑完还得衔接 flink cdc 实现流数据的同步。
3. 使用 flink cdc 需要开启 binlog 权限，可能客户不愿接受这点要求。
4. ld 现在可接受不是实时同步，唯一要求就是不能对客户数据库造成压力。

各位佬，有其他更好的方案说说嘛？感谢！

19 replies • 2025-08-05 18:41:03 +08:00

1

Fastmail

Aug 4, 2025

flink cdc 我记得可以 source 和 sink 可以控制 batchsize ，包括 channel 也可以控制 transactionCapacity
只要减少传递的 event 条数应该就可以吧

2

flmn

Aug 4, 2025

客户这个库，就没个从库么？

3

Fastmail

Aug 4, 2025

datax 其实也可以控制并发以及并行处理的记录数和字节数，可以搜搜，具体记不清了

4

liangcj

OP

Aug 4, 2025

@flmn 因为客户是不确定因素，所以只能往最坏结果想，就当没有。

5

weenhall5

Aug 4, 2025

存量数据可以分批跑，考虑后续数据如何可持续

6

liangcj

OP

Aug 4, 2025

@Fastmail 是有的，我上面 400w 就是设置了这些参数，10min 中跑完。cpu 爬升 20+。datax 也是可以设置并发量和处理记录、字节数。就是担心量太大了，还是会对客户有影响，而且 datax 是单机的，不支持分布式。

7

liangcj

OP

Aug 4, 2025

@weenhall5 现在也是这样考虑，就是分批跑，这个用什么方案比较好点。

8

user1284

Aug 4, 2025

要求无压力就只能慢慢传吧, 在小小的数据库里挖呀挖呀挖

9

fruitmonster

Aug 4, 2025

@liangcj #6 那就再拉长呗，10 分钟，CPU 爬升 20+，那就 20 分钟、30 分钟、40 分钟，反正只全量这一次

10

beihanggmj

Aug 4, 2025

分批次慢慢导出数据，用时间换算力。方案有很多，比如设置一个秒级别的 crontab 任务，一秒导出 1 万条这样的形式，时间间隔和单次 batch_size 可以按时间交付时间/需求设置具体的变量满足客户要求。

11

aarones

Aug 4, 2025

按照需要，一个任务只跑几个库或者几个表就行了，这点数据没多少，找个凌晨 3 点跑一下就完事

12

min

Aug 4, 2025

参数设置好，100 分钟跑完就无压力咯

13

cccssss

Aug 4, 2025

去客户机房硬盘对拷一份，然后跑增量

14

glacer

Aug 4, 2025

如果不开 binlog ，实时同步基本就做不了了。
只能分批次在深夜启动任务做全量同步，全量结束后，同样在深夜拉最新一天的数据做日增量即可。

15

cloudzhou

Aug 4, 2025

你这个应该要确定下方案先，尤其是否 binlog ，这个方案就差别很大了

16

haimianbihdata

Aug 5, 2025

不开 binlog ，实时很难搞。后续敲定了什么方案

17

coderYang

Aug 5, 2025

能否先 mysqldump 一份数据下来进行消费，同时记录时间点，新数据则通过 binlog 来实现呢？消费 binlog 文件不会对 mysql 有啥影响吧

18

liangcj

OP

Aug 5, 2025

@coderYang dump 的时候也会对客户的数据库造成很大压力。我本地 dump 自己的 6 亿条数据，cpu 骤然爬升 80%+，而且我本地还是没有其他业务操作。

19

dapen

Aug 5, 2025

没有 binlog 感觉只能业务上双写，但是双写就不能保持数据一致性。只能说服客户开启 binlog

About · Help · Advertise · Blog · API · FAQ · Solana · 3692 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 84ms · UTC 10:35 · PVG 18:35 · LAX 03:35 · JFK 06:35
♥ Do have faith in what you're doing.