国外购物网站哪个最好,建设厅网站生成案卷生成不了,it外包公司为什么不能去,网站建设视觉效果文章目录 一、Linux环境要求二、准备工作2.1 Linux安装jdk2.2 linux安装python2.3 下载DataX#xff1a; 三、DataX压缩包导入#xff0c;解压缩四、编写同步Job五、执行Job六、定时更新6.1 创建定时任务6.2 提交定时任务6.3 查看定时任务 七、增量更新思路 一、Linux环境要求… 文章目录 一、Linux环境要求二、准备工作2.1 Linux安装jdk2.2 linux安装python2.3 下载DataX 三、DataX压缩包导入解压缩四、编写同步Job五、执行Job六、定时更新6.1 创建定时任务6.2 提交定时任务6.3 查看定时任务 七、增量更新思路 一、Linux环境要求
jdk1.8及以上 python2
二、准备工作
2.1 Linux安装jdk yum install -y java-1.8.0-openjdk.x86_64查看是否安装成功
java -version2.2 linux安装python yum install -y python查看python版本号判断是否安装成功
python --version2.3 下载DataX
三、DataX压缩包导入解压缩
tar -zxvf datax.tar.gz 四、编写同步Job
在datax/job下json格式具体内容及主要配置含义如下
mysqlreader为读取mysql数据部分配置mysql相关信息 username,password为数据库账号密码 querySql需要查询数据的sql也可通过colums指定需要查找的字段querySql优先级高 elasticsearchwriter部分为数据写入ES部分配置ES相关信息 endpoint为ES地址index为索引columns为需要写入列的信息其余配置选填
坑若运行时提示mysql连接失败且账号密码ip端口号都没问题的情况下需要像文中一样在jdbcUrl的内容后面加上useSSLfalse
vim /opt/software/datax/job/job.json将内容换成以下内容
{job: {setting: { speed: {channel: 1},errorLimit: {percentage: 0}},content: [{reader: {name: mysqlreader,parameter: {username: root,password: 123456,connection: [{querySql: [select * from user_t],jdbcUrl: [jdbc:mysql://数据库地址:3306/mysql?useSSLfalse]}]}},writer: {name: elasticsearchwriter,parameter: {endpoint:http://ES地址:9200,accessId:,accessKey:,index: user-demo,cleanup: false,discovery:false,column: [{name: id,type: id},{name: userName,type: text},{name: address,type: text}]}}}]}}
五、执行Job
配置好之后执行命令 python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json 注意换成自己的datax路径
正常情况下输出一大堆之后会是这样由于我在mysql表中插了三条测试数据所以读出记录总数为3 完成操作
六、定时更新
6.1 创建定时任务
vim crondatax 内容 5 13 * * * python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json /opt/software/datax/log.date \%Y\%m\%d\%H\%M\%S 21 含义为每天13:05执行python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json 命令日志输出地址为/opt/software/datax命名为“log.时间” crontab格式可参考下图 6.2 提交定时任务
crontab crondatax
/sbin/service crond restart
6.3 查看定时任务
crontab -l
七、增量更新思路
数据库表设计时加入最后操作时间字段新增修改数据都会记录最新时间 Datax的json中mysql查询语句中按照定时任务规律查询此字段时间大于定时任务时间间隔之前的时间的数据。