数据治理 Python桑基图处理表关系_sankey is a dag, the original data has cycle!-程序员宅基地

技术标签: python  数据仓库  数据治理  血缘关系  数据可视化  Python  

数据治理 Python桑基图处理表关系

需求

随着hive库表越来越多,调度出问题后,排查时间越来越长。计划通过桑基图以及血缘图谱解决,当前先用桑基图页面顶一段时间。后期做成web服务,如果有可能,尽量嵌入到hive metastore

预期

  • 桑基图:

业务DB/中间件 – ods – cdm – ads – 大数据服务DB

  • 图谱:

业务DB/中间件 – 调度 – ods – 调度 – cdm – 调度 – ads – 调度 – 大数据服务DB

环境与版本

  1. Anaconda – Python3.6
  2. IED – PyCharm
  3. 前端可视化图表 – echarts(pycharts 1.+)

数据处理

整理hive表

方案一: 从hive metastore关联表获取(DBS + TBLS)

## 所有库表一次获取
SELECT concat(b.NAME,'.',a.TBL_NAME) FROM TBLS a 
LEFT JOIN DBS b ON a.DB_ID = b.DB_ID; 

方案二: 从hdfs 获取

## 分库表多次获取
hadoop fs -ls /user/hive/warehouse/tmp.db/ | awk -F ' ' '{print $8}' | sed 's/\/user\/hive\/warehouse\/tmp\.db\//tmp\./g'

方案三: 从hive客户端获取

## 分库表多次获取
use tmp; # a库,b库...
show tables;

整理表间关系

  1. 通过步骤【整理hive表】拿到表,找到代码里的管理关系
    比如a与b关联,生成c, c与d关联生成e
source target
a c
b c
c f
d f
  1. 将如上数据插入mysql
CREATE TABLE `links` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `source` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `target` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `is_deleted` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `gmt_create` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

SELECT source,target FROM `links`;

在这里插入图片描述

Python可视化

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import pymysql
import pandas as pd
import json
from pyecharts.charts import Sankey
from pyecharts import options as opts

# 获取数据库数据
def load_links_frame_from_mysql():
    conn = pymysql.connect(host="127.0.0.1",
                           port=3306,
                           user="账号",
                           password="密码",
                           db="数据库",
                           charset="utf8")
    sql = "SELECT source,target FROM links"
    data_frame = pd.read_sql(sql, conn)
    conn.close()
    return data_frame

# 获取nodes
def get_nodes(df):
    nodes = []
    for value in pd.concat([df['target'],df['source']]).unique():
        dic = {
    }
        dic['name'] = value
        nodes.append(dic)
    return nodes

# 获取links
def get_links(df):
    links = []
    for i in df.values:
        links.append({
    'source': i[0], 'target': i[1], 'value': 1})
    return links


if __name__=="__main__":
    link = load_links_frame_from_mysql()
    colors = [
        "#67001f",
        "#b2182b",
        "#d6604d",
        "#f4a582",
        "#fddbc7",
        "#d1e5f0",
        "#92c5de",
        "#4393c3",
        "#2166ac",
        "#053061"]

    pic = (
        Sankey(init_opts=opts.InitOpts(width="480px",height="720px")).set_colors(colors)
            .add('大数据表关系图',
                     get_nodes(link),
                     get_links(link),
                     pos_bottom="50%",
                     focus_node_adjacency="allEdges",
                     linestyle_opt=opts.LineStyleOpts(opacity=0.2, curve=0.5, color='source'),
                     label_opts=opts.LabelOpts(position='top'),

                     node_gap=1,
                     )
            .set_global_opts(title_opts=opts.TitleOpts(title='大数据'))
    )
    pic.render('xueyuan_sankey.html')

在这里插入图片描述

实际使用中的报错

  • Cannot set property ‘dataIndex’ of undefined

此错误由重复数据引起

  • Sankey is a DAG, the original data has cycle!

此错误为 source 与 target数据相同引起

参考

补充

  1. 后期调色忽略,图谱后期再处理;
  2. 有相关数据治理方面的,可以相互探讨和学习
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dbc_zt/article/details/114588765

智能推荐

25.cesuim分析之等高线生成_cesium 等高线分析-程序员宅基地

文章浏览阅读441次。cesuim分析之等高线生成。_cesium 等高线分析

OZON电商平台入口,OZON电商平台入口在哪里_ozon卖家入口-程序员宅基地

文章浏览阅读384次,点赞7次,收藏9次。在这里,您可以享受到丰富的商品选择、便捷的购物体验和优质的客户服务。作为俄罗斯领先的电商平台,OZON一直致力于为消费者提供优质的购物服务,让您的购物过程更加愉快和满意。OZON,作为俄罗斯领先的电商平台,吸引了众多消费者的关注。此外,OZON还提供了多种筛选条件,如价格、品牌、评价等,帮助您更快地找到满意的商品。在浏览商品时,您可以查看商品的详细信息、用户评价以及卖家信息,为您的购物决策提供参考。在这里,您可以浏览各种商品,从时尚服饰、美妆护肤,到家居用品、电子产品等,应有尽有。_ozon卖家入口

matlab & PTB 学习笔记02——开启PTB设置_出错 psychimaging (line 2232) [win, winrect] = scree-程序员宅基地

文章浏览阅读1.2k次。一、p_Window = Screen('OpenWindow',0,255);[windowPtr,rect]=Screen(‘OpenWindow’,windowPtrOrScreenNumber [,color] [,rect][,pixelSize][,numberOfBuffers][,stereomode][,multisample][,imagingmode][,specialFlags][,clientRect][,fbOverrideRect][,vrrParams=[]]);_出错 psychimaging (line 2232) [win, winrect] = screen('openwindow', screenid

彻底关闭Win10自动更新(Win10企业版或专业版)_waasmedicsvc start-程序员宅基地

文章浏览阅读2k次。彻底关闭Win10自动更新(Win10企业版或专业版)关闭Windows Updata服务右键此电脑->管理->服务和应用程序->服务Windows Update-> 常规->启动类型->禁用 恢复->第一次失败->无操作 常规->如果服务状态正在运行->点击停止关闭Windows更新计划任务任务计划程序->任务计划程序库->Microsoft->Windows->WindowsUpdate->Sch_waasmedicsvc start

计算机网络基础知识大汇总-程序员宅基地

文章浏览阅读2.7k次,点赞2次,收藏9次。一、什么是TCP/IP网络和协议1. TCP/IP是一类协议系统,它是一套支持网络通信的协议集合。网络是计算机或类似计算机的设备之间通过常用的传输介质进行通信的集合。2. 网络协议就是一套通用规则,用来帮助定义复杂数据传输的过程。数据传输从一台计算机上的应用程序开始,通过计算机网络硬件,经过传输介质到正确目的地,然后上传到目的地计算机网络硬件,最后到达负责接收的应用程序。3. TCP/IP协议定义了网络通信过程,更重要的是,定义了数据单元的格式和内容,以便接收计算机能够正确解释接收到的消_计算机网络基础知识

nacos集群raft选举算法_什么集群用到了raft-程序员宅基地

文章浏览阅读2.1k次。选举算法Nacos集群采用raft算法来实现,它是相对zookeeper的选举算法较为简单的一种。选举算法的核心在RaftCore 中,包括数据的处理和数据同步raft算法演示地址:http://thesecretlivesofdata.com/raft/在Raft中,节点有三种角色:Leader:负责接收客户端的请求Candidate:用于选举Leader的一种角色Follower..._什么集群用到了raft

随便推点

《数论概论》读书笔记(第二章)勾股数组_数论讲义读后感-程序员宅基地

文章浏览阅读1.2w次。本章主要讨论的是勾股数组,也就是关于满足a2+b2=c2a^2+b^2=c^2的三元组(a,b,c)(a,b,c)的问题。 这章中提到一个概念:本原勾股数组(PPT)是一个三元组(a,b,c)(a,b,c),其中a,b,ca,b,c没有公因子,且满足a2+b2=c2a^2+b^2=c^2,就是gcd(a,b,c)=1gcd(a,b,c)=1。 对于本原勾股数组,显然aa 和 bb 奇偶性不同只需_数论讲义读后感

android开发笔记之reflect使用_android reflect-程序员宅基地

文章浏览阅读810次。前言在看此文章前,请先查看下面几篇文章,理解一下reflect和Systemproperties系统属性的操作: 1.java核心技术之reflect(一):一个系统学习reflect的Demo(精) 2.github项目之读取系统属性 3.android开发笔记之system.prop使用(1)问题公司在搞应用apk化,也就是把android提供的应用导入androidstudio中,使用a_android reflect

Typora_Markdown_图片标题(题注)_markdown 图片标题-程序员宅基地

文章浏览阅读1.1w次,点赞39次,收藏52次。Typora图片标题(题注)总体有两种方法,一种是简单粗暴的,直接在图片下加文字作标题,而另一种是封装可拓展性强。1 直接下加标题图1 Typora-Logo代码如下:<img src="这里放图片路径" alt="这里放图片显示不出的时候出现的文字" style="zoom:这里写缩放的百分比,比如:30%"/><!--上面的是Typora默认的,不用自己写--><center><p>这里放标题</p>&_markdown 图片标题

一文看懂身份证二要素实名认证API的工作原理与流程-程序员宅基地

文章浏览阅读72次。随着互联网技术的快速发展和社会信息化程度的提高,实名认证作为一种重要的身份验证方式已经广泛应用于各行各业。实名认证能够对用户身份进行验证,有效减少虚假注册、网络欺诈等问题。在实名认证过程中,身份证二要素实名认证API是一种常见的技术方案,今天我们就来一文看懂身份证二要素实名认证API的工作原理与流程。

java游戏超级玛丽以及游戏改进(视频请看b站尚学堂)_java马里奥-程序员宅基地

文章浏览阅读2k次,点赞22次,收藏41次。一个简单的马里奥游戏项目_java马里奥

【路径规划】基于模糊控制的路径规划算法附matlab仿真实现_路径规划matlab仿真程序-程序员宅基地

文章浏览阅读379次。基于模糊控制的路径规划算法是一种利用模糊逻辑和模糊规则来设计无人机或其他机器人的路径规划方法。以下是一个基本的框架:问题定义:明确路径规划问题的目标和约束条件。例如,确定起始位置和目标位置,考虑避障要求、动态环境等。环境感知:通过传感器获取环境信息,并将其转化为可理解的数据形式。这可能涉及到使用视觉传感器、激光雷达、超声波等设备。建立模糊规则库:根据问题定义和感知信息,设计一组模糊规则,将输入变量(如距离、障碍物密度等)映射到输出变量(如移动方向、速度等)。_路径规划matlab仿真程序

推荐文章

热门文章

相关标签