技术标签: TDengine DataX TDengine3.x 时序数据迁移 亿级数据迁移 MySQL Database
MySQL
数据库中,设备历史数据单表过亿,如何快速、低成本地迁移到 TDengine3.x
中?
从标题可以看出,我们使用的数据迁移/同步工具是 DataX
,数据源( Source
)为传统的关系型数据库 MySQL
,目标库( Sink
)为新型的具有场景特色的时序数据库 TDengine
。
DataX:是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。 DataX
实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
MySQL:略。。
TDengine:是一款开源、高性能、云原生的时序数据库 (Time-Series Database, TSDB)。 TDengine
能被广泛运用于物联网、工业互联网、车联网、 IT
运维、金融等领域。除核心的时序数据库功能外, TDengine
还提供缓存、数据订阅、流式计算等功能,是一极简的时序数据处理平台,最大程度的减小系统设计的复杂度,降低研发和运营成本。
从 MySQL
到 TDengine3.x
进行数据迁移,即面临异构数据的迁移。首先要了解下 MySQL
与 TDengine
的数据模型方面的区别,具体可参考涛思数据官方提供的一个关于电表数据的模型对比:写给MySQL开发者的 TDengine入门指南。
以水库水位监测的案例说明,在 MySQL
中我们会有1张设备信息表(设备编号、厂家、型号等信息)和1张设备数据表(传感器采集的时序数据)。
针对 MySQL
中的2张表,以 TDengine
的设计思想来建模:在迁移到 TDengine
后会变成1张超级表+N(设备的数量)张子表,且每张子表的名称对应 MySQL
设备信息表中的每个设备编码。具体地来说, TDengine
中的数据模型如下:
create database if not exists sensor;
create stable if not exists sensor.water(ts timestamp, level float, status int) tags(district_code nchar(6), unit_id nchar(36), sensor_code int);
这里仅创建了1张超级表,具体的子表会在进行数据迁移时,根据 MySQL
设备信息表中的设备编码自动创建。
一开始我直接从https://github.com/taosdata/DataX的README中的:Download DataX下载地址下载的,但是后来才发现没有 TDengine3.x
版本的writer;然后直接下载https://github.com/taosdata/DataX的源码,本地编译生成了 jar
包,放到了 DataX
的 plugin
目录中。
Note:本地源码 mvn clean package -Dmaven.test.skip=true
构建生成 tdengine30writer-0.0.1-SNAPSHOT.jar
后,在 \datax\plugin\writer
下复制 tdenginewriter
目录,重命名为 tdengine30writer
,对应修改了其中的 plugin.json
和 plugin_job_template.json
,以及 libs
目录下的 taos-jdbcdriver-3.0.2.jar
。
至此,工具就准备好了,剩下的就是编写数据迁移的配置脚本了。
job-water.json
:迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备信息表这一步的结果就是创建了所有的子表:一个设备一张表。
tbname
, TDengine
自动会将其作为子表的名称进行创建。Note:这里在设备编码前加了一个字母d,因为在 TDengine
中表名不可以为数字。
“name”: “tdengine30writer”, 在 column
部分罗列出数据源中查询出的列名,与 MySQL
数据源中的顺序和名称一一对应,表名 table
处直接写超级表的名称。
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "your-password",
"connection": [
{
"jdbcUrl": [
"jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai"
],
"querySql": [
"select concat('d', code) as tbname, create_time as ts, sensor_code, district_code, unit_id from b_device WHERE sensor_code=2;"
]
}
]
}
},
"writer": {
"name": "tdengine30writer",
"parameter": {
"username": "root",
"password": "taosdata",
"column": [
"tbname",
"ts",
"sensor_code",
"district_code",
"unit_id"
],
"connection": [
{
"table": [
"water"
],
"jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
}
],
"batchSize": 1000,
"ignoreTagsUnmatched": true
}
}
}
],
"setting": {
"speed": {
"channel": 1
}
}
}
}
D:\datax\bin>datax.py ../job/job-water.json
job-water-data.json
:迁移配置脚本分两部分:一个是数据源,一个是目标库。迁移设备数据表这一步的结果便会将传感器数据根据设备编号写入对应的子表中。
迁移设备数据表时,查询传感器采集的字段,同样对设备编码起别名为 tbname
, TDengine
自动会将数据写入对应的子表。
在 column
部分罗列出数据源中查询出的列名,与 MySQL
数据源中的顺序和名称一一对应,配置设备数据表时,需要注意,表名 table
处要写所有子表的名称。
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "root",
"password": "your-password",
"connection": [
{
"jdbcUrl": [
"jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600"
],
"querySql": [
"select concat('d', code) as tbname, create_time as ts, value as level, status from sensor_water;"
]
}
]
}
},
"writer": {
"name": "tdengine30writer",
"parameter": {
"username": "root",
"password": "taosdata",
"column": [
"tbname",
"ts",
"level",
"status"
],
"connection": [
{
"table": [
"d66057408201830",
"d66057408063030",
"d66057408027630",
"d66057408208130",
"d66057408009630",
"d66057408000530",
"d66057408067330",
"d66057408025430"
],
"jdbcUrl": "jdbc:TAOS-RS://192.168.44.158:6041/sensor"
}
],
"encoding": "UTF-8",
"batchSize": 1000,
"ignoreTagsUnmatched": true
}
}
}
],
"setting": {
"speed": {
"channel": 1
}
}
}
}
D:\datax\bin>datax.py ../job/job-water-data.json
执行 D:\datax\bin>datax.py ../job/job.json
后,控制台上的中文输出乱码。
CHCP 65001
回车,直到打开新窗口出现Active code page: 65001,再次执行job命令,中文正常显示。jdbc
固定的模板。java.lang.NullPointerException: null
at com.taosdata.jdbc.rs.RestfulDriver.connect(RestfulDriver.java:111) ~[taos-jdbcdriver-2.0.37.jar:na]
at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
at java.sql.DriverManager.getConnection(Unknown Source) ~[na:1.8.0_311]
at com.alibaba.datax.plugin.writer.tdenginewriter.DefaultDataHandler.handle(DefaultDataHandler.java:75) ~[tdenginewriter-0.0.1-SNAPSHOT.jar:na]
URL
的连接上增加该参数,net_write_timeout/net_read_timeout
设置稍微大一些,默认60s。jdbc:mysql://your-ip:3306/iotdata?useSSL=false&serverTimezone=Asia/Shanghai&net_write_timeout=600
在 MySQL
中查看变量值: SHOW VARIABLES LIKE "net%"
。
以上便是基于 DataX
完成从 MySQL
到 TDengine3.x
的时序数据迁移实战记录,借助 DataX
工具,通过配置文件驱动的方式完成了海量时序数据的快速迁移。
实际的迁移测试结果是,3000+个水库水位传感设备,历史数据单表1亿+,半天时间迁移了5000万+。
If you have any questions or any bugs are found, please feel free to contact me.
Your comments and suggestions are welcome!
文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态
文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境
文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn
文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker
文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机
文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk
文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入
文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。 Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。
文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动
文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计
文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图
文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法