为什么使用Hive?Hive提供了什么?Hive支持哪些用户

为什么使用Hive?Hive提供了什么?Hive支持哪些用户,第1张

为什么使用Hive?

为什么使用Hive?那么,在哪里使用Hive呢?在载入了60亿行(经度、维度、时间、数据值、高度)数据集到MySQL后,系统崩溃了,并经历过数据丢失。这可能部分是因为我们最初的策略是将所有的数据都存储到单一的一张表中了。后来,我们调整了策略通过数据集和参数进行分表,这有所帮助但也因此引入了额外的消耗,而这并非是我们愿意接受的。

相反,我们决定尝试使用Apache Hive技术。我们安装了Hive 0.5 + 20,使用CDHv3和Apache Hadoop(0 20 2 + 320)。CDHv3还包含有许多其他相关工具,包括Sqoop和Hue这些在我们的架构中都标识出来了,如图23-3底部所示。

我们使用Apache Sqoop转储数据到Hive中,然后通过写一个Apache OODT包装器,来使Hive按照空间/时间约束查询数据,然后将结果提供给RCMET和其他用户(图23-2中间部分显示)。RCMES集群的完整的架构如图23- 3所示。我们有5台机器,包括图中所示的一个主/从配置,通过一个运行GigE的私人网进行连接。

Hive提供了什么

Photobucket公司使用Hive的主要目标是为业务功能、系统性能和用户行为提供答案。为了满足这些需求,我们每晚都要通过Flume从数百台服务器上的MySQL数据库中转储来自Web服务器和自定义格式日志TB级别的数据。这些数据有助于支持整个公司许多组织,比如行政管理、广告、客户支持、产品开发和操作,等等。对于历史数据,我们保持所有MySQL在每月的第一天创建的所有的数据作为分区数据并保留30天以上的日志文件。Photobucket使用一个定制的ETL框架来将MySQL数据库中数据迁移到Hive中。使用Flume将日志文件数据写入到HDFS中并按照预定的Hive流程进行处理。

Hive支持的用户有哪些

行政管理依赖于使用Hadoop提供一般业务健康状况的报告。Hive允许我们解析结构化数据库数据和非结构化的点击流数据,以及业务所涉及的数据格式进行读取。

广告业务使用Hive筛选历史数据来对广告目标进行预测和定义配额。产品开发无疑是该组织中产生最大数量的特定的查询的用户了。对于任何用户群,时间间隔变化或随时间而变化。Hive是很重要的,因为它允许我们通过对在当前和历史数据中运行A / B测试来判断在一个快速变化的用户环境中新产品的相关特性。

在Photobucket公司中,为我们的用户提供一流的系统是最重要的目标。从操作的角度来看,Hive被用来汇总生成跨多个维度的数据。在公司里知道最流行的媒体、用户、参考域是非常重要的。控制费用对于任何组织都是重要的。一个用户可以快速消耗大量的系统资源,并显著增加每月的支出。Hive可以用于识别和分析出这样的恶意用户,以确定哪些是符合我们的服务条款,而哪些是不符合的。也可以使用Hive对一些操作运行A / B测试来定义新的硬件需求和生成ROI计算。Hive将用户从底层MapReduce代码解放出来的能力意味着可以在几个小时或几天内就可以获得答案,而不是之前的数周。

Hive中的数据库

Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。然而,对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突。通常会使用数据库来将生产表组织成逻辑组。

如果用户没有显式指定数据库,那么将会使用默认的数据库default。

下面这个例子就展示了如何创建一个数据库:

hive>CREATE DATABASE financials

如果数据库financials已经存在的话,那么将会抛出一个错误信息。使用如下语句可以避免在这种情况下抛出错误信息:

hive>CREATE DATABASE IF NOT EXISTS financials

虽然通常情况下用户还是期望在同名数据库已经存在的情况下能够抛出警告信息的,但是IF NOT EXISTS这个子句对于那些在继续执行之前需要根据需要实时创建数据库的情况来说是非常有用的。

在所有的数据库相关的命令中,都可以使用SCHEMA这个关键字来替代关键字TABLE。

随时可以通过如下命令方式查看Hive中所包含的数据库:

hive>SHOW DATABASES

default

financials

hive>CREATE DATABASE human_resources

hive>SHOW DATABASES

default

financials

human_resources

如果数据库非常多的话,那么可以使用正则表达式匹配来筛选出需要的数据库名,正则表达式这个概念,将会在第6.2.3节“Like和RLike”介绍。下面这个例子展示的是列举出所有以字母h开头,以其他字符结尾(即.*部分含义)的数据库名:

hive>SHOW DATABASES LIKE 'h.*'

human_resources

hive>...

Hive会为每个数据库创建一个目录。数据库中的表将会以这个数据库目录的子目录形式存储。有一个例外就是default数据库中的表,因为这个数据库本身没有自己的目录。

数据库所在的目录位于属性hive.metastore.warehouse.dir所指定的顶层目录之后,这个配置项我们已经在前面的第2.5.1节“本地模式配置”和第2.5.2节“分布式模式和伪分布式模式配置”中进行了介绍。假设用户使用的是这个配置项默认的配置,也就是/user/hive/warehouse,那么当我们创建数据库financials时,Hive将会对应地创建一个目录/user/hive/warehouse/financials.db。这里请注意,数据库的文件目录名是以.db结尾的。

用户可以通过如下的命令来修改这个默认的位置:

hive>CREATE DATABASE financials

>LOCATION '/my/preferred/directory'

用户也可以为这个数据库增加一个描述信息,这样通过DESCRIBE DATABASE <database>命令就可以查看到该信息。

hive>CREATE DATABASE financials

>COMMENT 'Holds all financial tables'

hive>DESCRIBE DATABASE financials

financials Holds all financial tables

hdfs://master-server/user/hive/warehouse/financials.db

从上面的例子中,我们可以注意到,DESCRIEB DATABASE语句也会显示出这个数据库所在的文件目录位置路径。在这个例子中,URI格式是hdfs。如果安装的是MapR,那么这里就应该是maprfs。对于亚马逊弹性MapReduce(EMR)集群,这里应该是hdfs,但是用户可以设置hive.metastore.warehouse.dir为亚马逊S3特定的格式(例如,属性值设置为s3n://bucketname...)。用户可以使用s3作为模式,但是如果使用新版的规则s3n会更好。

前面DESCRIBE DATABASE语句的输出中,我们使用了master-server来代表URI权限,也就是说应该是由文件系统的“主节点”(例如,HDFS中运行NameNode服务的那台服务器)的服务器名加上一个可选的端口号构成的(例如,服务器名:端口号这样的格式)。如果用户执行的是伪分布式模式,那么主节点服务器名称就应该是localhost。对于本地模式,这个路径应该是一个本地路径,例如file:///user/hive/warehouse/financials.db。

如果这部分信息省略了,那么Hive将会使用Hadoop配置文件中的配置项fs.default.name作为master-server所对应的服务器名和端口号,这个配置文件可以在$HADOOP_HOME/conf这个目录下找到。

需要明确的是,hdfs:///user/hive/warehouse/financials.db和hdfs://master-server/user/hive/

warehouse/financials.db是等价的,其中master-server是主节点的DNS名和可选的端口号。

为了保持完整性,当用户指定一个相对路径(例如,some/relative/path)时,对于HDFS和Hive,都会将这个相对路径放到分布式文件系统的指定根目录下(例如,hdfs:///user/<user-name>)。然而,如果用户是在本地模式下执行的话,那么当前的本地工作目录将是some/relative/path的父目录。

为了脚本的可移植性,通常会省略掉那个服务器和端口号信息,而只有在涉及到另一个分布式文件系统实例(包括S3存储)的时候才会指明该信息。

此外,用户还可以为数据库增加一些和其相关的键-值对属性信息,尽管目前仅有的功能就是提供了一种可以通过DESCRIBE DATABASE EXTENDED <database>语句显示出这些信息的方式:

hive>CREATE DATABASE financials

>WITH DBPROPERTIES ('creator' = 'Mark Moneybags', 'date' = '2012-01-02')

hive>DESCRIBE DATABASE financials

financials hdfs://master-server/user/hive/warehouse/financials.db

hive>DESCRIBE DATABASE EXTENDED financials

financials hdfs://master-server/user/hive/warehouse/financials.db

{date=2012-01-02, creator=Mark Moneybags)

USE命令用于将某个数据库设置为用户当前的工作数据库,和在文件系统中切换工作目录是一个概念:

hive>USE financials

现在,使用像SHOW TABLES这样的命令就会显示当前这个数据库下所有的表。

不幸的是,并没有一个命令可以让用户查看当前所在的是哪个数据库!幸运的是,在Hive中是可以重复使用USE…命令的,这是因为在Hive中并没有嵌套数据库的概念。

可以回想下,在第2.7.2节“变量和属性”中提到过,可以通过设置一个属性值来在提示符里面显示当前所在的数据库(Hive v0.8.0版本以及之后的版本才支持此功能):

hive>set hive.cli.print.current.db=true

hive (financials)>USE default

hive (default)>set hive.cli.print.current.db=false

hive>...

最后,用户可以删除数据库:

hive>DROP DATABASE IF EXISTS financials

IF EXISTS子句是可选的,如果加了这个子句,就可以避免因数据库finanacials不存在而抛出警告信息。

默认情况下,Hive是不允许用户删除一个包含有表的数据库的。用户要么先删除数据库中的表,然后再删除数据库;要么在删除命令的最后面加上关键字CASCADE,这样可以使Hive自行先删除数据库中的表:

hive>DROP DATABASE IF EXISTS financials CASCADE

如果使用的是RESTRICT这个关键字而不是CASCADE这个关键字的话,那么就和默认情况一样,也就是,如果想删除数据库,那么必须先要删除掉该数据库中的所有表。

如果某个数据库被删除了,那么其对应的目录也同时会被删除。

记录一下自己在工作中经常用到的几个参数设置,从调整的实际效果看还是有效果的。

企业相关服务器资源配置:平均600台active的节点,

每个节点可用的内存在200G左右,可用的memory total:116T

1、**set hive.exec.parallel=true**

开启job的并行:基本每个hql脚本都会开启这个参数,默认并行度为8,

在集群资源充足的情况下,可以提高job并行的数量:

set hive.exec.parallel.thread.number=16  (企业生产中我是很少用到这个的,都是用的默认值,因为太消耗资源怕影响别的任务,搞不好会被运维抓住,邮件通报批评!当然使用时还是看具体情况吧!)

因为需求中一张表的job的数量每次基本都在20个以上,在相关维度多,涉及到的字段逻辑复杂的情况下,

一张表中job的数量会超过100个,之前做的一个需求中insert插入的脚本中job的数量达到了169个,

在测试环境运行的时候只用了一个小时就跑完了,数据量在一亿条左右,大概有一百多G。

2、**set hive.map.aggr=true;**

在map端中会做部分聚集操作,效率更高但需要更多的内存,可以根据自己企业的资源情况来设置,

如果我的脚本涉及到的数据量不大的话,我一般不会开启这个参数。

3、**set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat**

hive0.5开始的默认值,执行map前进行小文件合并,在一个job中生成的map的数量很多的时候,

和第二个参数一起开启配合使用,在实际生产中多次验证发现可以减少一倍以上的map数量。

在开启前我的一个job的map数量有577个,开启后的map的数量只有196个,极大提高程序的运行效率。

4、**set mapred.max.split.size=256000000;**

每个Map(一个切片的)最大输入大小(这个值决定了合并后文件的数量),和第3个参数配合一起使用

默认值也是256000000,

mapred.min.split.size默认值是10000000

dfs.block.size默认是128M,这个参数通过hive来更改是没有实际用的,只能通过hdfs来修改

***实际在hive中,并不是split的大小要小于等于blocksize,而是可以远大于blocksize,为什么???(map的数量)***

<1>当hive需要处理的文件是压缩,且压缩算法不支持文件切分的时候,决定map个数的因素主要是文件块实际存储的大小,

如果文件块本身很大,比如500Mb左右,那么每个map处理的splitsize至少要是500Mb左右。

这个时候我们不能人为通过参数降低每个map的splitsize来增加map个数,只能通过增加splitsize,减少map个数,

如果hive处理的文件是压缩模式,且压缩模式不支持文件切分,那么这个时候我们只能通过控制参数来减少map个数,而不能通过配置参数来增加map个数,所以Hive对于压缩不可切分文件的调优有限

<2>如果Hive处理的的文件为非压缩格式或者压缩可切分,且inputFormat为CombineHiveInputFormat时,

则控制map个数是由以下四个参数起作用,关于这四个参数作用优先级与使用注意事项请参考如下:

一般来讲这几个参数的结果大小要满足以下条件:

max.split.size >= min.split.size >= min.size.per.node >= min.size.per.rack

几个参数的作用优先级为:

max.split.size <= min.split.size <= min.size.per.node <= min.size.per.rack

总结:所以对于控制map的个数进行调优,首先需要看是否开启了压缩,压缩算法是否支持切分,参数的设置等等!

5、**set mapred.min.split.size.per.node=256000000;**

一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并) ,

和第3和第4个参数一起配合使用。

6、**set mapred.min.split.size.per.rack=256000000;**

一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并) ,

也适合第3,4,5的参数一起配合使用。

7、**set hive.exec.mode.local.auto=true;**

开启本地模式,这个参数在自己学习中可能经常用到,但是在实际生产中用到的还是比较少,

因为这个参数开启后,针对的是小数据集,在单台机器上处理所有的任务,对生产中的任务不适用!

8、**set hive.exec.reducers.bytes.per.reducer=512*1000*1000;**

每个reduce任务处理的数据量,默认为256M,在hive0.14.0之前默认是1G,我们公司设置的是512M,写的是512*1000*1000因为在网络传输中用的是1000,而不是1024机制,

将该参数值调小可以增加reduce的数量,提高运行的效率,

当然也不是reduce的数量越多越好,因为启动和初始化reduce都是会消耗资源和时间的,

而且有多少个reduce就会有多少个输出文件,如果这些文件作为下一个任务的输入,就会造成小文件过多的问题

9、**hive.exec.reducers.max**

每个任务最大的reduce数,默认为1009,在hive0.14.0之前默认是999

计算reducer数的公式很简单N=min(参数9,总输入数据量/参数8)

即,如果reduce的输入(map的输出)总大小不超过1G,那么只会有一个reduce任务;

10、**set mapred.reduce.tasks = 15;**

设置reduce的个数(在实际生产中谨慎使用)

那么什么时候可以进行手动设定reduce数量呢?比如系统自动计算的reduce个数,因为集群资源不足,

造成程序运行出现OOM(内存溢出不足)时,可以根据推定的reduce个数手动增加数量,保证程序在跑的慢的基础上可以完整运行

那么在什么情况下只有一个reduce呢?

<1>、当map的输出文件小于hive.exec.reducers.bytes.per.reducer时

<2>、手动设置set mapred.reduce.tasks =1时

<3>、使用了order by时(全局排序会使用一个reduce去处理)

<4>、表关联时出现笛卡尔积

<5>、单独使用count时,比如:select count(*) from tablename,

如果改写加入了group by配合使用就不会出现一个reduce,比如:select sign_date,count(*) from tablename group by sign_date

11、**set mapred.job.reuse.jvm.num.tasks=10;**

用于避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短,因为hive调起mapreduce任务,JVM的启动过程会造成很大的开销,尤其是job有成千上万个task任务时,JVM重用可以使得JVM实例在同一个job中重新使用N次

12、**set hive.exec.dynamic.partition=true;**

表示开启动态分区功能

13、**set hive.exec.dynamic.partition.mode=nonstrict;**

表示允许所有分区都是动态的,

默认是strict,表示必须保证至少有一个分区是静态的

14、**set hive.groupby.skewindata=true;**

有数据倾斜的时候进行负载均衡 ,决定group by操作是否支持倾斜数据,其实说白了就相当于MR中的conbiner做了一次预聚合。

注意:只能对单个字段聚合。

控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce中减少某些key值条数过多某些key条数过小造成的数据倾斜问题。

在第一个 MapReduce 中,map 的输出结果集合会随机分布到 reduce 中, 每个reduce 做部分聚合操作,并输出结果。这样处理的结果是,相同的 Group By Key 有可能分发到不同的reduce中,从而达到负载均衡的目的;

第二个 MapReduce 任务再根据预处理的数据结果按照 Group By Key 分布到 reduce 中(这个过程可以保证相同的 Group By Key 分布到同一个 reduce 中),最后完成最终的聚合操作

15、**set hive.auto.convert.join=true;**

开启map join

16、**set hive.mapjoin.smalltable.filesize=512000000;**

map join的小表的大小,也是开启和关闭map join的阈值

17、**hive.exec.compress.output=true;**

开启压缩,我们公司使用的是默认的压缩算法deflate

压缩算法有:<1>、org.apache.hadoop.io.compress.GzipCodec,

  <2>、org.apache.hadoop.io.compress.DefaultCodec,

  <3>、com.hadoop.compression.lzo.LzoCodec,

  <4>、com.hadoop.compression.lzo.LzopCodec,

  <5>、org.apache.hadoop.io.compress.BZip2Codec

使用的压缩算法:

set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec

**针对上述小文件合并的三个参数值做以下解释:**

大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),进行合并

步骤

Hive提供了jdbc驱动,使得我们可以连接Hive并进行一些类关系型数据库的sql语句查询等操作,首先我们需要将这些驱动拷贝到报表工程下面,然后再建立连接,最后通过连接进行数据查询。

拷贝jar包到FR工程

将hadoop里的hadoop-common.jar拷贝至报表工程appname/WEB-INF/lib下;

将hive里的hive-exec.jar、hive-jdbc.jar、hive-metastore.jar、hive-service.jar、libfb303.jar、log4j.jar、slf4j-api.jar、slf4j-log4j12.jar拷贝至报表工程appname/WEB-INF/lib下。

配置数据连接

启动设计器,打开服务器>定义数据连接,新建JDBC连接。

在Hive 0.11.0版本之前,只有HiveServer服务可用,在程序操作Hive之前,必须在Hive安装的服务器上打开HiveServer服务。而HiveServer本身存在很多问题(比如:安全性、并发性等);针对这些问题,Hive0.11.0版本提供了一个全新的服务:HiveServer2,这个很好的解决HiveServer存在的安全性、并发性等问题,所以下面我们分别介绍HiveServer和HiveServer2配置数据连接的方式。

HiveServer

数据库驱动:org.apache.hadoop.hive.jdbc.HiveDriver;

URL:jdbc:hive://localhost:10000/default

注:hive服务默认端口为10000,根据实际情况修改端口;另外目前只支持默认数据库名default,所有的Hive都支持。

测试连接,提示连接成功即可。

4

数据库驱动:org.apache.hive.jdbc.HiveDriver;

URL:jdbc:hive2://localhost:10000/default

注:该连接方式只支持Hive0.11.0及之后版本。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/487122.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-12
下一篇2023-06-12

发表评论

登录后才能评论

评论列表(0条)

    保存