Hive Metastore详解大全-程序员宅基地

技术标签: hive  # Hive  大数据  

1、介绍

Hive所有表和分区的元数据都通过Hive Metastore进行访问。使用JPOX ORM解决方案(Data Nucleus)持久化元数据,因此它支持的任何数据库都可以被Hive使用。它支持大多数商业关系数据库和许多开放源码数据库。请参阅下面一节中支持的数据库列表。

Hive Metastore库里的表之间的拓扑关系图如下:

有2种不同的方法来设置metastore服务器和metastore数据库使用不同的Hive配置:

简单来讲就是使用本地的Derby模式的

使用远程的数据库

1.1、基本配置参数

相关配置参数如下所示。非metastore参数请参见配置Hive。也请参阅语言手册的Hive配置属性,包括Metastore和Hive Metastore安全。)

请参见配置Hive下的hivemetstore -site.xml文档。

Configuration Parameter

Description

javax.jdo.option.ConnectionURL

用于包含元数据的数据存储的JDBC连接字符串

javax.jdo.option.ConnectionDriverName

包含元数据的数据存储的JDBC驱动程序类名

hive.metastore.uris

Hive连接到这些uri中的一个,向远端Metastore(以逗号分隔的uri列表)发送元数据请求。

hive.metastore.local

本地或远端metastore(从Hive 0.10移除:如果Hive .metastore.uri为空,则假设本地模式为远端模式)

hive.metastore.warehouse.dir

本机表的默认位置的URI

Hive metastore是无状态的,因此可以有多个实例来实现高可用性。使用hive.metastore.uri可以指定多个远程元数据连接。Hive会默认使用列表中的第一个,但会在连接失败时随机选择一个,并尝试重新连接。

1.2、其他配置参数

以下metastore配置参数是从旧文档中继承下来的,没有保证它们仍然存在。Hive当前的配置选项请参见HiveConf Java类,Metastore和Hive Metastore安全部分的语言手册的Hive配置属性的用户友好的描述Metastore参数。

Configuration Parameter

Description

Default Value

hive.metastore.metadb.dir

文件存储元数据基目录的位置。(在0.4.0中HIVE-143删除了该功能。)

hive.metastore.rawstore.impl

实现org.apache.hadoop.hive.metastore.rawstore接口的类名。该类用于存储和检索原始元数据对象,如表、数据库。(Hive 0.8.1及以上版本)

org.jpox.autoCreateSchema

如果模式不存在,则在启动时创建必要的模式。(模式包括表、列等等。)创建一次后设置为false。

org.jpox.fixedDatastore

数据存储模式是否固定。

datanucleus.autoStartMechanism

是否在启动时初始化。

hive.metastore.ds.connection.url.hook

用于检索JDO连接URL的钩子的名称。如果为空,则使用javax.jdo.option.ConnectionURL中的值作为连接URL。(Hive 0.6及以上版本)

hive.metastore.ds.retry.attempts

如果出现连接错误,重试调用备份数据存储的次数。

(Hive 0.6到0.12;在0.13.0中移除-使用hive.hmshandler.retry.attempts代替。)

1

hive.metastore.ds.retry.interval

数据存储重试之间的毫秒数。

(Hive 0.6到0.12;在0.13.0中移除-请改用hive.hmshandler.retry.interval。)

1000

hive.metastore.server.min.threads

Thrift服务器池中工作线程的最小数量。

(Hive 0.6及以上版本)

200

hive.metastore.server.max.threads

Thrift服务器池中的最大工作线程数。

(Hive 0.6及以上版本)

100000 since Hive 0.8.1

hive.metastore.filter.hook

Metastore钩子类,用于在客户端进一步过滤元数据读取结果。

(Hive 1.1.0及以上版本)

org.apache.hadoop.hive.metastore.DefaultMetaStoreFilterHookImpl

hive.metastore.port

Hive metastore监听端口。

(Hive 1.3.0及以上版本)

9083

1.3、数据中心自动启动

配置datanucleus。强烈推荐使用autoStartMechanism,强烈建议为数据中心配置自动启动。

<property>

    <name>datanucleus.autoStartMechanism</name>

    <value>SchemaTable</value>

</property>

1.4、默认配置

默认配置将设置一个自带的metastore,它将在单元测试中使用。

1.5、本地/自带 Metastore数据库(Derby)

自带的metastore数据库主要用于单元测试。一次只能有一个进程连接到metastore数据库,所以这不是一个实际的解决方案,但在单元测试中工作得很好。

对于单元测试,Metastore服务器的本地/嵌入式Metastore服务器配置与自带的数据库一起使用。

Derby是自带的metastore的默认数据库。

Config Param

Config Value

Comment

javax.jdo.option.ConnectionURL

jdbc:derby:;databaseName=
../build/test/junit_metastore_db;create=true

Derby数据库位于hive/trunk/build…

javax.jdo.option.ConnectionDriverName

org.apache.derby.jdbc.EmbeddedDriver

Derby自带了JDBC驱动类

hive.metastore.warehouse.dir

file://${user.dir}/../build/ql/test/data/warehouse

单元测试数据放在本地文件系统中

如果您希望将Derby作为网络服务器运行,以便可以从多个节点访问metastore,请参阅Hive Using Derby in server Mode。

1.6、远程Metastore数据库

在此配置中,您将使用传统的独立RDBMS服务器。下面的示例配置将在MySQL服务器中设置一个metastore。建议实际使用metastore数据库的这种配置。

Config Param

Config Value

Comment

javax.jdo.option.ConnectionURL

jdbc:mysql://<host name>/<database name>?createDatabaseIfNotExist=true

元数据存储在MySQL服务器中

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

MySQL JDBC 驱动类

javax.jdo.option.ConnectionUserName

<user name>

连接MySQL服务的用户名

javax.jdo.option.ConnectionPassword

<password>

连接MySQL服务的密码

1.7、本地/自带 Metastore服务

在本地/内嵌的metastore安装中,metastore服务器组件像Hive Client中的库一样被使用。每个Hive Client将打开一个连接到数据库,并对它进行SQL查询。确保执行Hive查询的机器可以访问数据库,因为这是一个本地存储。还要确保JDBC客户端库在Hive client的类路径中。这个配置通常在HiveServer2中使用(仅在HiveServer2中添加“——hiveseconf hive.metastore”)。uris=' '",或者使用hiveserver2-site.xml (Hive 0.14中提供)。

Config Param

Config Value

Comment

hive.metastore.uris

not needed because this is local store

hive.metastore.local

true

这是本地存储(在Hive 0.10中移除,参见配置描述部分)

hive.metastore.warehouse.dir

<base hdfs path>

指向HDFS中非外部Hive表的默认位置。

1.8、远程Metastore服务

在远程metastore设置中,所有的Hive客户端将连接到一个metastore服务器,反过来查询数据存储(在这个例子中是MySQL)的元数据。Metastore服务器和客户端使用Thrift协议进行通信。从Hive 0.5.0开始,可以执行以下命令启动Thrift服务器:

hive --service metastore

在Hive 0.5.0之前的版本中,需要通过直接执行Java来运行Thrift服务器:$JAVA_HOME/bin/java  -Xmx1024m -Dlog4j.configuration=file://$HIVE_HOME/conf/hms-log4j.properties -Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/ -cp $CLASSPATH org.apache.hadoop.hive.metastore.HiveMetaStore

如果直接执行Java,那么JAVA_HOME, HIVE_HOME, HADOOP_HOME必须正确设置;CLASSPATH应该包含Hadoop、Hive (lib和auxlib)和Java jar。

1.8.1、服务端配置参数

下面以Remote Metastore数据库为例。

Config Param

Config Value

Comment

javax.jdo.option.ConnectionURL

jdbc:mysql://<host name>/<database name>?createDatabaseIfNotExist=true

metadata is stored in a MySQL server

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

MySQL JDBC driver class

javax.jdo.option.ConnectionUserName

<user name>

user name for connecting to MySQL server

javax.jdo.option.ConnectionPassword

<password>

password for connecting to MySQL server

hive.metastore.warehouse.dir

<base hdfs path>

默认hive表路径

hive.metastore.thrift.bind.host

<host_name>

Host name to bind the metastore service to. When empty, "localhost" is used. This configuration is available Hive 4.0.0 onwards.

从Hive 3.0.0 (Hive -16452)开始,metastore数据库存储了一个GUID,可以通过Thrift API get_metastore_db_uuid被metastore客户端查询,以识别后端数据库实例。HiveMetaStoreClient可以通过getMetastoreDbUuid()方法访问这个API。

1.8.2、客户端配置参数

Config Param

Config Value

Comment

hive.metastore.uris

thrift://<host_name>:<port>

Thrift metastore服务器的主机和端口。如果指定了hive.metastore.thrift.bind.host, host应该与该配置相同。在动态服务发现配置参数中了解更多信息。

hive.metastore.local

false

Metastore是远程的。注意:从Hive 0.10开始不再需要。设置hive.metastore.uri就足够了。

hive.metastore.warehouse.dir

<base hdfs path>

指向HDFS中非外部Hive表的默认位置。

如果使用MySQL作为元数据的数据存储,在启动Hive Client或HiveMetastore Server之前,请将MySQL jdbc库放在HIVE_HOME/lib目录下。

1.9、支持的Metastore数据库类型

Database

Minimum Supported Version

Name for Parameter Values

See Also

MySQL

5.6.17

mysql

Postgres

9.1.13

postgres

Oracle

11g

oracle

hive.metastore.orm.retrieveMapNullsAsEmptyStrings

MS SQL Server

2008 R2

mssql

Hive现在会记录metastore数据库中的模式版本,并验证metastore的模式版本是否与将要访问metastore的Hive二进制文件兼容。注意,默认情况下,用于隐式创建或修改现有模式的Hive属性是禁用的。Hive不会试图隐式改变metastore模式。当对旧模式执行Hive查询时,将无法访问metastore。

要抑制模式检查并允许metastore隐式修改模式,您需要在hive-site.xml中将配置属性hive.metastore.schema.verification设置为false。

从0.12版开始,Hive还包括一个离线模式工具来初始化和升级metastore模式。

2、元数据库表详解

在第一章节的时候有介绍过metastore里面的库表之间的关系图

2.1、表详解

掌握如下几个常用的表,就能够基本上玩转Metastore里的内容了。

附一段,根据表名,利用如下几个表查出这个表的重要信息的SQL语句

SELECT  concat(a2.name,a1.tbl_name,a4.integer_idx) AS primary_key

        ,a1.tbl_id

        ,a1.db_id

        ,a1.owner AS create_table_auth

        ,a1.sd_id

        ,a2.name AS database_name

        ,a5.param_value AS table_comments

        ,a1.tbl_name AS TABLE_NAME

        ,a1.tbl_type AS table_type

        ,a4.comment AS column_comments

        ,a4.column_name

        ,a4.type_name

        ,a3.location

        ,a3.input_format

        ,a3.output_format

        ,a4.integer_idx

FROM    (

            SELECT  tbl_id

                    ,db_id

                    ,OWNER

                    ,sd_id

                    ,tbl_name

                    ,tbl_type

            FROM    tbls

            WHERE   tbl_name = 'table_name'

        ) a1

LEFT JOIN dbs a2

ON      a1.db_id = a2.db_id LEFT

JOIN    sds a3

ON      a1.sd_id = a3.sd_id

LEFT JOIN columns_v2 a4

ON      a3.cd_id = a4.cd_id LEFT

JOIN    table_params a5

ON      a1.tbl_id = a5.tbl_id

AND     a5.param_key = 'comment'

WHERE   a2.name <> 'default'

2.1.1、 TBLS(表的表头信息)表解释

英文名

类型

中文注释

TBL_ID

bigint(20)

全表唯一主键

CREATE_TIME

int(11)

表创建时间,格式是到秒的时间戳

DB_ID

bigint(20)

DBS 表的id

LAST_ACCESS_TIME

int(11)

OWNER

varchar(767)

创建表的用户名

OWNER_TYPE

varchar(10)

RETENTION

int(11)

SD_ID

bigint(20)

TBL_NAME

varchar(256)

表名

TBL_TYPE

varchar(128)

类型:

EXTERNAL_TABLE 外部表

MANAGED_TABLE内部表

VIRTUAL_VIEW 试图

VIEW_EXPANDED_TEXT

mediumtext

如果是试图的话,试图的SQL语句

VIEW_ORIGINAL_TEXT

mediumtext

IS_REWRITE_ENABLED

bit(1)

2.1.2、 DBS(表db信息)表解释

英文名

类型

中文注释

DB_ID

bigint(20)

唯一主键id

DESC

Varchar(4000)

DB_LOCATION_URI

varchar(4000)

表所属db的路径地址

NAME

varchar(128)

表所属db的名字

OWNER_NAME

varchar (128)

表所属账号名字

OWNER_TYPE

varchar (10)

CTLG_NAME

varchar(256)

2.1.3、 SDS(表存储格式相关内容)表解释

英文名

类型

中文注释

SD_ID

bigint(20)

唯一主键id

CD_ID

bigint(20)

INPUT_FORMAT

varchar(4000)

Input格式

IS_COMPRESSED

bit(1)

IS_STOREDASSUBDIRECTORIES

bit(1)

location

varchar(4000)

数据存储路径

NUM_BUCKETS

Int(11)

OUTPUT_FORMAT

varchar(4000)

Output格式

SERDE_ID

bigint(20)

2.1.4、 columns_v2(表字段详情)表解释

英文名

类型

中文注释

CD_ID

bigint(20)

跟sds表的cd_id关联

COMMENT

varchar(4000)

注释信息

COLUMN_NAME

bit(1)

列名

TYPE_NAME

bit(1)

列值类型

INTEGER_IDX

varchar(4000)

列在表中的顺序

2.1.5、 table_params(表附属信息)表解释

英文名

类型

中文注释

TBL_ID

bigint(20)

跟tbls表的tbl_id关联

PARAM_KEY

varchar(4000)

comment –> 表注释

EXTERNAL –> 是否是外部表

parquet.compression –> 是否压缩

transient_lastDdlTime –> 最近一次ddl时间(时间戳)

PARAM_VALUE

bit(1)

Key对的value值

3、元数据接口详解

3.1、接口详解

官方hive接口文档地址:https://hive.apache.org/javadocs/ ,在这个上面可以选择对应的hive版本之后再详细看里面的接口。

3.2、代码接口详解

由于接口比较多,挑选几个重要的详细说明下

//获取所有的数据库
getAllDatabases
//获取所有的表名
getAllTables
//获取分区信息
getPartition
//获取schema信息
getSchema
//获取函数信息
getFunctions

3.3、代码样例

import org.apache.hadoop.hive.conf.HiveConf;

import org.apache.hadoop.hive.metastore.HiveMetaStoreClient;

import org.apache.hadoop.hive.metastore.api.FieldSchema;

import org.apache.hadoop.hive.metastore.api.MetaException;

import org.apache.hadoop.hive.metastore.api.Table;

import org.apache.thrift.TException;

import java.util.List;



public class HiveMetastoreApi {

    public static void main(String[] args) {



        HiveConf hiveConf = new HiveConf();

        hiveConf.addResource("hive-site.xml");



        HiveMetaStoreClient client = null;

        try {

            client = new HiveMetaStoreClient(hiveConf);

        } catch (MetaException e) {

            e.printStackTrace();

        }





        //获取数据库信息

        List<String> tablesList = null;

        try {

            tablesList = client.getAllTables("db_name");

        } catch (MetaException e) {

            e.printStackTrace();

        }

        System.out.print("db_name 数据所有的表:  ");

        for (String s : tablesList) {

            System.out.print(s + "\t");

        }

        System.out.println();



        //获取表信息

        System.out.println("db_name.table_name 表信息: ");

        Table table = null;

        try {

            table = client.getTable("db_name", "table_name");

        } catch (TException e) {

            e.printStackTrace();

        }

        List<FieldSchema> fieldSchemaList = table.getSd().getCols();

        for (FieldSchema schema : fieldSchemaList) {

            System.out.println("字段: " + schema.getName() + ", 类型: " + schema.getType());

        }

        client.close();

    }

}
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Aaron_ch/article/details/119633657

智能推荐

展示DataLoader中的图片_tdst.imagefolder-程序员宅基地

文章浏览阅读312次。在数据处理阶段,如何查看调用的图片数据_tdst.imagefolder

【行研报告】2021中国移动互联网秋季大报告—附下载链接_questmobile2021秋季-程序员宅基地

文章浏览阅读107次。来源 | QuestMobile随着科技水平的不断提升,各行业均在实现数字化发展,产业数字化规模的不断扩大带动行业从量到质的跨越,正在激发新的动能;单纯增加投放额度对品牌增长已收效甚微,品牌需要基于用户属性和诉求,有机的整合品牌资源来进行营销拓展,实现更精细的投放触达。如需查看完整报告和报告下载或了解更多,公众号:参一江湖如需查看完整报告和报告下载或了解更多,公众号:参一江湖..._questmobile2021秋季

环境变量配置错误的解决方法_proxmark3gui系统环境变量配置错误-程序员宅基地

文章浏览阅读3.2k次。Linux下环境变量配置错误导致系统命令不能使用的解决方案_proxmark3gui系统环境变量配置错误

Spring开发 注解 @Resource与@Autowired用法区别_@autowired spring不同版本-程序员宅基地

文章浏览阅读780次。**spring中,@Resource和@Autowired都是做bean的注入时使用。使用过程中,有时候 @Resource 和 @Autowired可以替换使用;有时,则不可以。下面,根据自己的学习,整理下这两个注解使用中的共同点和不同点,及用法上的不同。 共同点 @Resource和@Autowired都可以作为注入属性的修饰,在接口仅有单一实现类时,两个注解的修饰效果相同,可..._@autowired spring不同版本

实例分割论文阅读之:《Mask Transfiner for High-Quality Instance Segmentation》-程序员宅基地

文章浏览阅读1.4k次,点赞14次,收藏8次。两阶段和基于查询的实例分割方法取得了显著的效果。然而,它们的分段掩模仍然非常粗糙。在本文中,我们提出了一种高质量和高效的实例分割Mask Transfiner。我们的Mask Transfiner不是在规则的密集张量上操作,而是将图像区域分解并表示为四叉树。我们基于变压器的方法只处理检测到的容易出错的树节点,并并行地自我纠正它们的错误。虽然这些稀疏像素只占总数的一小部分,但它们对最终的掩模质量至关重要。这使得Mask Transfiner能够以较低的计算成本预测高度准确的实例掩码。_mask transfiner for high-quality instance segmentation

《现代永磁同步电机控制原理及MATLAB仿真》之三相电压源逆变器PWM技术学习_三次谐波注入spwm仿真-程序员宅基地

文章浏览阅读845次,点赞4次,收藏10次。对于三相逆变电路,其直流电压的利用率为0.866,为了提高直流电压的利用率,考虑在调制波信号中注入三相谐波分量,对调制波求导得到调制波的最大幅值,当注入的三次谐波的幅值为Vm1/6时,基于三次谐波注入的基波电压幅值增加了15.48%,提高了直流电压利用率,仿真建模如下。其中V0为零序分量,V0的取值范围在[-1-Vmin 1-Vmax]之间,其中Vmax=Max{Vam Vbm Vcm},Vmin=Min{Vam Vbm Vcm},常见的典型的零序信号有:均值零序信号、极值零序信号和交替零序信号。_三次谐波注入spwm仿真

随便推点

LLM 大模型框架 LangChain 可观测性最佳实践_did not find openai_api_key, please add an environ-程序员宅基地

文章浏览阅读1.1k次,点赞23次,收藏19次。LLM(Large Language Model)大模型的可观测性是指对模型内部运行过程的理解和监控能力。由于LLM大模型通常具有庞大的参数量和复杂的网络结构,因此对其内部状态和运行过程的理解和监控是一个重要的问题。_did not find openai_api_key, please add an environment variable `openai_api_

[C#]winform部署yolov5实例分割模型onnx_c#部署yolo分割-程序员宅基地

文章浏览阅读673次,点赞8次,收藏11次。此外,它还可以处理多个物体在同一像素或同一位置的情况,这在一些场景中是非常有用的。总的来说,YOLOv5实例分割是一种非常有用的目标检测和分割算法,可以广泛应用于各种计算机视觉任务中。例如,它对于小物体的检测效果较差,因为小物体的特征比较微弱。在实例分割中,算法不仅要识别图像中的物体,还要对每个物体进行分割,以获得物体的精确边界。这需要对每个物体实例进行单独的预测,并使用像素级的掩膜来标记物体的边界。YOLOv5实例分割是目标检测算法的一个变种,主要用于识别和分割图像中的多个物体。_c#部署yolo分割

python-函数局部变量与全局变量_python列表不设置全局变量为什么可以作为全局变量append数据-程序员宅基地

文章浏览阅读1k次。1 局部变量局部变量是在某个函数中声明的,只能在该函数中调用它,如果试图在超出范围的地方调用,程序就爆掉了如果在函数内部定义与某个全局变量一样名称的局部变量,就可能会导致意外的效果,可能不是你期望的。因此不建议这样使用,这样会使得程序很不健全2 全局变量全局变量是在整个py文件中声明,全局范围内都可以访问注意 不可变类型的全局变量在内部函数调用后不会发生修改,但可变类型的变量在调用后会根据函数操作而变化3 区别作用域不同 局部变量只在该函数中有作用,在函数外调用无效全局变量在整个py中声明,_python列表不设置全局变量为什么可以作为全局变量append数据

tableau 如何选择tableau计算类型?基本计算 / LOD计算 / 表计算_tableau 基本函数 表计算函数 lod表达式-程序员宅基地

文章浏览阅读3.2k次。一、计算在数据源和分析中的位置基本计算和LOD表达式是数据源查询的计算,返回的是一个结果集。统称为custom calculation,生成的结果是custom filed 自定义字段,字段在哪里?字段在数据源层面。 ① 基本计算和LOD计算是在数据源层面的计算,部分字段具有全局意义。比如创建一个“成本”字段,[cost]=[sales]-[profit],这个行级别字段在商品明细行级别具有意义的,在聚合后也具有意义;② 但大部分不像维度或度量字..._tableau 基本函数 表计算函数 lod表达式

在 Laravel 模型中禁止使用全局表前缀 DB_PREFIX_laravel 中怎么取消数据库的前缀-程序员宅基地

文章浏览阅读337次。【代码】在 Laravel 模型中禁止使用全局表前缀 DB_PREFIX。_laravel 中怎么取消数据库的前缀

如何做一个能用的 JAVA 的 Websocket 聊天室?_java通过webscoket构建聊天室-程序员宅基地

文章浏览阅读624次。该示例代码定义了一个名为 "ChatClient" 的客户端端点,用于连接到 "/chat" 端点。上述代码只是一个简单的示例,实际的聊天室需要更多的逻辑和功能来保证安全和良好的用户体验。当客户端连接到服务器时,用户输入的消息将使用。当客户端接收到消息时,客户端还包含一个方法。,用于向服务器发送消息。_java通过webscoket构建聊天室