扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
Ø 首先,我们需要开启MySQL服务器的二进制日志功能,其实现方法有很多种,最常用的是在MySQL的配置文件的mysqld项中加入log-bin=[filepath]项;也可以使用mysqld –log-bin=[filepath]重新启动MySQL服务器。
创新互联秉承实现全网价值营销的理念,以专业定制企业官网,做网站、成都网站制作,微信平台小程序开发,网页设计制作,移动网站建设,全网营销推广帮助传统企业实现“互联网+”转型升级专业定制企业官网,公司注重人才、技术和管理,汇聚了一批优秀的互联网技术人才,对客户都以感恩的心态奉献自己的专业和所长。
Ø 其次,使用mysqldump对数据库进行完全备份,它可以实现对数据据的联机,非阻塞的热备份,不会影响其他进程对数据库的读写操作。(参考指令:mysqldump -uroot --password=123 --single-transaction --flush-logs --master-data=2 --all-databases --delete-master-logs d:/mysql5.0/full_%date:~0,10%_1500_PM.sql)
Ø 第三,使用flush logs指令刷新创建新的二进制日志。可以通过mysqladmin flush logs或者flush logs语句实现。最方便有效的方法是将它做成批处理文件,然后让操作系统定期执行。
Ø 使用mysql *.sql进行完全备份的恢复。
同步业务库的数据到ODS层,之前一直是全量同步数据,主要考虑IO太大,耗时太长,重复拉取同样的数据,现在考虑增量同步的方式实现,同时对库表数据做分区。
增量同步主要分为两步,第一步,存量数据一次性同步;第二步,在存量数据的基础之上,做增量;后期的每一次同步都是增量同步。以下是具体同步方案:
用Sqoop同步表中全部数据到Hive表中;
a.根据hive中最大更新时间,用Sqoop提取更新时间为这个时间之后的增量数据;
1)获取表的所有列,把datetime和timestamp类型,统一在java中映射成TIMESTAMP类型,脚本如下:
2) 用sqoop import拉取数据,脚本如下:
1)创建增量同步的sqoop job,脚本如下:
a、从hive中获取表的最大更新时间
b、以上面获取的最大更新时间,作为起点,创建sqoop job,脚本如下:
c、创建sqoop job之后,就是执行job了,脚本如下:
具体参数详解,参考:
根据增量需求更改你的原始表,例如增加update_time时间戳字段,根据更新时间获取增量,注意删除操作,可以通过设置删除标记字段来表示,不要进行物理删除。
mysql主从备份,根据binlog来实时同步更新变化。或者自己拉取binlog解析,更新目标数据
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流