1. 批量同步

当用户需要将数据从一个数据库迁移到一个或多个目标数据库时可以通过在批量同步中创建项目来实现。

批量同步主要功能:

  • 将一个或者多个表同步到指定连接中。
  • 在数据同步过程中设置数据同步策略。
  • 支持手动、定时同步数据。
  • 可执行多个项目来完成数据同步工作。

1.1. 创建数据同步流程

批量同步数据的过程如下:

  1. 创建批量同步项目。
  2. 配置来源数据连接和目标数据连接。
  3. 配置同步策略。
  4. 设定项目执行计划。

1.2. 批量同步详细指导

1.2.1. 创建批量同步项目

数据集成->批量同步页面中,点击右上角的新建项目,创批量同步项目。

1.2.2. 配置数据源

在批量同步项目页面设置来源数据连接(需要迁移的数据连接)和目标数据连接(即数据迁移到的数据连接)。 目标数据连接创建时需要勾选支持数据集成输出功能。 如果不了解数据连接的概念,请先阅读数据连接

1.2.3. 配置数据同步策略

批量同步支持对连接、schema、表分别设置同步策略。

配置连接同步策略

连接同步策略对连接内所有目录及目录下的表都生效。连接同步策略包括:

  • schema名称: 数据同步后表所在的schema名称设置。
    • 前缀+ 原名称 : 数据同步后表存放的目录名称为“前缀”+“原名称”。 如图将前缀设置为“prefix_”时,数据同步前表86export存放在目录chenjing中,同步后表86export存放目录名称为“prefix_chenjing”。
    • 固定名称:数据同步后所有表存放在同一目录中。 如图所示,目录chenjing、gb1312、gbkdb里面的表都存放在example中。。
  • table名称:表同步后的命名规则。
    • 原名称:数据同步后表名不变。
    • schema+中缀+原名称:数据同步后,表的名称变为“schema”+“中缀”+“原名称”。如图将中缀设为“_mid_”时,表86export同步后名称改为chenjing_mid_86export。
  • 全量提取建表策略: 当选择全量提取时,支持以下两种方式。
    • 删除原表并创建新表:将原有表格删除,重新创建新表,同步数据。
    • 保留原表清空数据:原表不删除,只是将数据进行清空,然后同步数据。
  • 增量提取时字段变化处理策略: 当表选择增量提取方法时,如果表的字段发生变化可以选择如下两种处理策略。
    • 触发全量提取: 表按照全量方式进行提取方法。
    • 忽略变动: 忽略变动的字段,表按照原来增量方式进行提取。
  • 忽略后续新增的表: 勾选此项后,来源数据连接中新增的表不会被同步。
  • 为每个表添加额外的更新时间列
     选择此项后,数据同步时,除了原始的数据列之外,会额外增加 hs_sync_time列,记录每行数据被同步的时间戳。 
       ![](images/data-intergration/batch-sync-007.png)  
    

配置shema同步策略

配置shema同步策略仅对当前schema生效,目前仅支持“忽略后续新增的表”的配置。

配置表同步策略

表同步策略仅对当前表配置生效。表同步策略包括:

  • 提取方法
    • 全量提取:每次都是全量提取数据。
    • 增量提取:第一次同步时是全量提取数据,后续以增量键或主键作为表同步依据,在增量键和主键的基础上进行增量提取。
      • 增量键:必须是数字或者时间类型。
  • 键字段:设置键字段用来做主键和分布键。键字段有两个功能。
    • 增量更新时是用来做主键,必须是数字或者时间类型。
    • 建表时用来做主键和分布键。如果设置建表属性,则键字段设置不生效。
  • 建表属性:在数据同步表创建过程中自定义分区字段和索引字段,对数据进行分散存储。 建表属性仅在第一次建表时生效。 目前支持建表属性的数据源包括Greenplum、Apache Doris、StarRocks和ClickHouse。
数据分批同步

当同步的数据量比较大时,数据导入时间可能超过了源数据库的查询时间,导致数据同步失败。此时可以通过配置项 ETL_SRC_MYSQL_PAGE_SIZE 设置一次提取数据的最大上限,当超过该上限时数据进行分批操作。数据分批同步适用增量提取、设置键字段的全量提取场景。目前只有MySQL数据源支持分批同步。

说明
请联系技术人员配置ETL_SRC_MYSQL_PAGE_SIZE。

1.2.4. 执行同步操作

数据同步可分为立即执行和通过执行计划同步数据。

  • 立即执行:即手动执行数据同步操作,点击立即执行按钮后开始同步数据。
  • 执行计划:即设定同步计划,由系统触发数据同步操作。点击右上角的执行计划,进入执行计划设置页面,设置计划的基本信息、调度信息、告警信息。

    • 基本信息:设置执行时重试次数及任务的优先级。任务优先级分高、中、低三个级别。高级别的任务优先处理。
    • 调度信息:
      • 设置任务的调度时间,可设置多个调度时间。 支持按小时、天、周、月的方式设置执行计划。
        • 小时:可设置每小时的第几分钟更新。
        • 天:可以设置每天具体的时间点更新。
        • 周:可以设置每周的周几的具体时间点更新,可以多选。
        • 月:可以设置每月的第几天的具体时间点更新,可以多选。
        • 自定义:可以自行设置更新的时间点。
      • 设置任务的前置依赖,可设置多个前置依赖任务。
      • 设置依赖等待时间。
    • 告警信息:开启失败告警,当任务执行失败后,会以邮件形式通知到收件人。

说明:

每次执行数据同步,无论成功和失败都会记录在执行记录中。

1.3. FAQ

1.单表快捷同步
数据集成支持单表快捷同步。在全量提取少数表时,设置目的数据连接后,找到对应的表,点击图标即可完成表同步。

results matching ""

    No results matching ""

    数据集成 流式同步