HiveQL: 数据定义


学习自《Hive编程指南》

1. Hive 数据库

  • create database DBname;
hive (default)> show databases;
OK
default
hive
Time taken: 0.023 seconds, Fetched: 2 row(s)
hive (default)> create database students;
OK
Time taken: 0.066 seconds
hive (default)> show databases;
OK
default
hive
students
Time taken: 0.016 seconds, Fetched: 3 row(s)
  • create database if not exists students; 如果存在同名的表,不会报错(对于连续执行很有用,不会中断)
hive (default)> create database students;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database students already exists
hive (default)> create database if not exists students;
OK
Time taken: 0.016 seconds
  • show databases like "s.*"; 搜索以 xxx 开头的数据库
hive (default)> show databases like "s.*";
OK
students
  • hive (default)> dfs -ls -R /; 查看数据库在hadoop中的位置

  • 自定义hadoop路径 location '/mydb';

hive (default)> create database test
              > location '/mydb';
  • 创建注释 comment "注释字符串 just test comment!";
hive (default)> create database test1
              > comment "just test comment!";
OK
Time taken: 0.06 seconds

hive (default)> describe database test1;
OK
test1	just test comment!	hdfs://localhost:9000/user/hive/warehouse/test1.db	hadoop	USER	
Time taken: 0.018 seconds, Fetched: 1 row(s)
  • 增加相关键值对 with dbproperties ('created'="michael", "date"='2021-04-06')
  • describe database extended test2; 显示附件键值对信息
hive (default)> create database test2
              > with dbproperties ('created'="michael", "date"='2021-04-06');
OK
Time taken: 0.728 seconds

hive (default)> describe database extended test2;
OK
test2		hdfs://localhost:9000/user/hive/warehouse/test2.db	hadoop	USER	{date=2021-04-06, created=michael}
Time taken: 0.022 seconds, Fetched: 1 row(s)
  • 切换数据库 use 数据库名
hive (default)> show databases;
OK
default
hive
students
test
test1
test2
Time taken: 0.641 seconds, Fetched: 6 row(s)

hive (default)> use students;
OK
Time taken: 0.027 seconds
hive (students)> 

注:cmd里显示数据库名,需要 vim /usr/local/hive/bin/.hiverc
添加 set hive.cli.print.current.db=true;

  • 删除数据库 drop database if exists test2数据库名;

2. 修改数据库

hive (default)> alter database student set dbproperties('created by'='Michael ming');

hive (default)> describe database extended student;
student		hdfs://localhost:9000/user/hive/warehouse/student.db	hadoop	USER	{created by=Michael ming}

hive (default)> alter database student set dbproperties('created by'='Michael haha');

hive (default)> describe database extended student;
student		hdfs://localhost:9000/user/hive/warehouse/student.db	hadoop	USER	{created by=Michael haha}

3. 创建表

hive (default)> create table if not exists employees(
              > name string comment "employee name",
              > salary float comment "employee salary",
              > subordinates array<string> comment "name of subordinates",
              > deductions map<string, float> comment "key is name, value is percentages",
              > address struct<street:string, city:string, state:string, zip:int> comment "home address")
              > comment "info of employees"
              > location '/employees'
              > tblproperties('created_by'='michael ming', 'created_at'='2021-04-06 20:00:00');
OK
Time taken: 0.344 seconds

hive (default)> show tables;
OK
employee
employees
student1
Time taken: 0.057 seconds, Fetched: 3 row(s)
  • 显示 表属性 show tblproperties employees;
hive (default)> show tblproperties employees;
OK
comment	info of employees
created_at	2021-04-06 20:00:00
created_by	michael ming
transient_lastDdlTime	1617710228
Time taken: 0.093 seconds, Fetched: 4 row(s)
  • 复制表的模式,不拷贝数据 like 要复制的表名
hive (default)> create table if not exists employees1
              > like employees;
OK
Time taken: 0.193 seconds

hive (default)> show tables;
OK
employees
employees1
student1
Time taken: 0.022 seconds, Fetched: 3 row(s)
  • 过滤查找
hive (default)> show tables "emp.*";
OK
employees
employees1
  • 展示表的结构信息 extended,formatted (更常用)describe formatted employees;
hive (default)> describe extended employees;
OK
name                	string              	employee name       
salary              	float               	employee salary     
subordinates        	array<string>       	name of subordinates
deductions          	map<string,float>   	key is name, value is percentages
address             	struct<street:string,city:string,state:string,zip:int>	home address        
	 	 
Detailed Table Information	Table(tableName:employees, dbName:default, owner:hadoop, createTime:1617710228, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:name, type:string, comment:employee name), FieldSchema(name:salary, type:float, comment:employee salary), FieldSchema(name:subordinates, type:array<string>, comment:name of subordinates), FieldSchema(name:deductions, type:map<string,float>, comment:key is name, value is percentages), FieldSchema(name:address, type:struct<street:string,city:string,state:string,zip:int>, comment:home address)], location:hdfs://localhost:9000/employees, inputFormat:org.apache.hadoop.mapred.TextInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), partitionKeys:[], parameters:{transient_lastDdlTime=1617710228, created_at=2021-04-06 20:00:00, comment=info of employees, created_by=michael ming}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE)	
Time taken: 0.746 seconds, Fetched: 7 row(s)

hive (default)> describe formatted employees;
OK
# col_name            	data_type           	comment             
	 	 
name                	string              	employee name       
salary              	float               	employee salary     
subordinates        	array<string>       	name of subordinates
deductions          	map<string,float>   	key is name, value is percentages
address             	struct<street:string,city:string,state:string,zip:int>	home address        
	 	 
# Detailed Table Information	 	 
Database:           	default             	 
Owner:              	hadoop              	 
CreateTime:         	Tue Apr 06 19:57:08 CST 2021	 
LastAccessTime:     	UNKNOWN             	 
Retention:          	0                   	 
Location:           	hdfs://localhost:9000/employees	 
Table Type:         	MANAGED_TABLE       	 
Table Parameters:	 	 
	comment             	info of employees   
	created_at          	2021-04-06 20:00:00 
	created_by          	michael ming        
	transient_lastDdlTime	1617710228          
	 	 
# Storage Information	 	 
SerDe Library:      	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe	 
InputFormat:        	org.apache.hadoop.mapred.TextInputFormat	 
OutputFormat:       	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat	 
Compressed:         	No                  	 
Num Buckets:        	-1                  	 
Bucket Columns:     	[]                  	 
Sort Columns:       	[]                  	 
Storage Desc Params:	 	 
	serialization.format	1                   
Time taken: 0.069 seconds, Fetched: 32 row(s)

3.1 管理表

也叫内部表,删除管理表时,数据也会被删除

3.2 外部表

删除外部表 external,只会删除表的元信息,不会删除数据

hive (default)> create external table if not exists extstudent(
              > id int,
              > name string,
              > sex string,
              > age int,
              > course string)
              > row format delimited fields terminated by '\t'
              > location '/home/hadoop/workspace/student.txt';
OK
hive (default)> load data local inpath '/home/hadoop/workspace/student.txt' overwrite into table extstudent;
Loading data to table default.extstudent
OK
Time taken: 1.117 seconds

hive (default)> select * from extstudent;
OK
1	michael	male	18	bigdata
2	ming	male	19	AI
3	lili	female	18	math
4	huahua	female	20	AI
Time taken: 0.768 seconds, Fetched: 4 row(s)
  • 输入 describe formatted extstudent;,显示有 Table Type: EXTERNAL_TABLE 外部表

4. 分区表、管理表

分区用来水平分散压力,提高查询速度 partitioned by

hive (default)> create table stu(
              > id int,
              > name string)
              > partitioned by (country string, sex string)
              > row format delimited fields terminated by '\t';
OK
Time taken: 0.041 seconds

hive (default)> load data local inpath '/home/hadoop/workspace/student.txt' overwrite into table stu partition(country='china', sex='male');
Loading data to table default.stu partition (country=china, sex=male)
OK
Time taken: 0.294 seconds
hive (default)> select * from stu;
OK
1	michael	china	male
2	ming	china	male
3	lili	china	male
4	huahua	china	male
Time taken: 0.069 seconds, Fetched: 4 row(s)
# dfs -ls -R / 显示文件
drwxr-xr-x   - hadoop supergroup          0 2021-04-06 22:50 /user/hive/warehouse/stu
drwxr-xr-x   - hadoop supergroup          0 2021-04-06 22:50 /user/hive/warehouse/stu/country=china
drwxr-xr-x   - hadoop supergroup          0 2021-04-06 22:50 /user/hive/warehouse/stu/country=china/sex=male
-rwxr-xr-x   1 hadoop supergroup        114 2021-04-06 22:50 /user/hive/warehouse/stu/country=china/sex=male/student.txt
  • 展示分区 show partitions
hive (default)> show partitions stu;
OK
country=china/sex=male
Time taken: 0.075 seconds, Fetched: 1 row(s)
  • set hive.mapred.mode=strict; 严格模式,需要带where过滤才行,避免超大的查询任务
hive (default)> set hive.mapred.mode=strict;
hive (default)> select * from stu;
FAILED: SemanticException Queries against partitioned tables without a partition filter are disabled for safety reasons. If you know what you are doing, please make sure that hive.strict.checks.large.query is set to false and that hive.mapred.mode is not set to 'strict' to enable them. No partition predicate for Alias "stu" Table "stu"
hive (default)> select * from stu where country='china';
OK
1	michael	china	male
2	ming	china	male
3	lili	china	male
4	huahua	china	male
Time taken: 0.402 seconds, Fetched: 4 row(s)
  • set hive.mapred.mode=nonstrict; 不严格模式
hive (default)> set hive.mapred.mode=nonstrict;
hive (default)> select * from stu;
OK
1	michael	china	male
2	ming	china	male
3	lili	china	male
4	huahua	china	male
Time taken: 0.077 seconds, Fetched: 4 row(s)
  • 只查看指定分区
hive (default)> show partitions stu partition(country='china');
OK
country=china/sex=male
  • describe formatted stu; 也会显示分区信息
hive (default)> describe formatted stu;
OK
# col_name            	data_type           	comment             
	 	 
id                  	int                 	                    
name                	string              	                    
	 	 
# Partition Information	 	 
# col_name            	data_type           	comment             
	 	 
country             	string              	                    
sex                 	string   
省略。。。           	                    
  • 添加分区 alter table stu add partition(country='china1', sex='female');

5. 删除表

drop table if exists 表名;

6. 修改表

使用 alter table 语句,会修改元数据,但不会修改数据本身

  • 重命名 表
hive (default)> alter table stu rename to stu_new;
  • 增加多个分区
hive (default)> alter table stu_new add if not exists
              > partition(country='USA', sex='male')
              > partition(country='RUS', sex='male');

hive (default)> show partitions stu_new;
country=RUS/sex=male
country=USA/sex=male
country=china/sex=male
country=china1/sex=female
  • 修改分区路径
hive (default)> alter table stu_new partition(country='china', sex='male')
              > set location "/user/hive/warehouse/mypath";
  • 删除分区
hive (default)> alter table stu_new drop if exists partition(country='USA',sex='male');
Dropped the partition country=USA/sex=male
OK
Time taken: 0.404 seconds
  • 修改列信息
hive (default)> alter table stu_new
              > change column id new_id int
              > comment "changed new_id";
hive (default)> describe stu_new;
OK
new_id              	int                 	changed new_id      
name                	string              	                    
country             	string              	                    
sex                 	string              	                    
	 	 
# Partition Information	 	 
# col_name            	data_type           	comment             
	 	 
country             	string              	                    
sex                 	string              	         

还可以修改字段位置 追加 after 字段 或者 first,请同时修改数据以匹配

  • 增加列
    在分区字段之前,增加新的字段到已有字段之后
hive (default)> alter table stu_new add columns(
              > height int comment "height of people",
              > hobby string comment "likes things");
OK
Time taken: 0.074 seconds
hive (default)> describe stu_new;
OK
new_id1             	float               	changed new_id1 float
name                	string              	                    
height              	int                 	height of people    
hobby               	string              	likes things        
country             	string              	                    
sex                 	string              	                    
	 	 
# Partition Information	 	 
# col_name            	data_type           	comment             
	 	 
country             	string              	                    
sex                 	string              	   
  • 删除、替换列 replace columns
    下面例子移除了之前所有的字段,并指定新的字段:
hive (default)> alter table stu_new replace columns(
              > c1 float comment "column  1",
              > c2 string,
              > c3 float comment 'column 3');

hive (default)> describe stu_new;
OK
c1                  	float               	column  1           
c2                  	string              	                    
c3                  	float               	column 3            
country             	string              	                    
sex                 	string              	                    
	 	 
# Partition Information	 	 
# col_name            	data_type           	comment             
	 	 
country             	string              	                    
sex                 	string              	 

注意:需要数据类型兼容(原来是float ,不能改为 int)

  • 修改表属性
    增加或修改属性,但无法删除属性
hive (default)> show tblproperties stu_new;
last_modified_by	hadoop
last_modified_time	1617749844
transient_lastDdlTime	1617749844

hive (default)> alter table stu_new set tblproperties(
              > 'creator' = 'michael',
              > 'ok' = 'good');

hive (default)> show tblproperties stu_new;
creator	michael
last_modified_by	hadoop
last_modified_time	1617750323
ok	good
transient_lastDdlTime	1617750323

hive (default)> alter table stu_new set tblproperties(
              > 'creator' = 'ming');

hive (default)> show tblproperties stu_new;
creator	ming
last_modified_by	hadoop
last_modified_time	1617750355
ok	good
transient_lastDdlTime	1617750355
  • 修改存储属性

修改文件格式

hive (default)> alter table stu_new
              > set fileformat textfile;
              
hive (default)> alter table stu_new
              > partition(country='china', sex='male')
              > set fileformat sequencefile;

修改 Serde,并指定属性

hive (default)> alter table stu_new
              > set serde 'com.example.mySerDe' # 不改,就不需要这句
              > with serdeproperties(
              > 'prop1'='v1',
              > 'prop2'='v2');
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. at least one column must be specified for the table

修改存储属性

hive (default)> alter table stu_new
              > clustered by (c1, c2)
              > sorted by (c3) # 可选
              > into 5 buckets;
  • 其他修改表语句

在 hive 之外文件被修改了,就会触发”钩子“的执行???

hive (default)> alter table stu_new touch
              > partition(country='china', sex='male');
hive -e "alter table stu_new touch partition(country='china', sex='male');"
已标记关键词 清除标记
相关推荐
DirectX修复工具(DirectX Repair)是一款系统级工具软件,简便易用。本程序为绿色版,无需安装,可直接运行。 本程序的主要功能是检测当前系统的DirectX状态,如果发现异常则进行修复。程序主要针对0xc000007b问题设计,可以完美修复该问题。本程序中包含了最新版的DirectX redist(Jun2010),并且全部DX文件都有Microsoft的数字签名,安全放心。 本程序为了应对一般电脑用户的使用,采用了易用的一键式设计,只要点击主界面上的“检测并修复”按钮,程序就会自动完成校验、检测、下载、修复以及注册的全部功能,无需用户的介入,大大降低了使用难度。在常规修复过程中,程序还会自动检测DirectX加速状态,在异常时给予用户相应提示。 本程序适用于多个操作系统,如Windows XP(需先安装.NET 2.0,详情请参阅“致Windows XP用户.txt”文件)、Windows Vista、Windows 7、Windows 8、Windows 8.1、Windows 8.1 Update、Windows 10,同时兼容32位操作系统和64位操作系统。本程序会根据系统的不同,自动调整任务模式,无需用户进行设置。 本程序的V4.0版分为标准版、增强版以及在线修复版。所有版本都支持修复DirectX的功能,而增强版则额外支持修复c++的功能。在线修复版功能与标准版相同,但其所需的数据包需要在修复时自动下载。各个版本之间,主程序完全相同,只是其配套使用的数据包不同。因此,标准版和在线修复版可以通过补全扩展包的形式成为增强版。本程序自V3.5版起,自带扩展功能。只要在主界面的“工具”菜单下打开“选项”对话框,找到“扩展”标签,点击其中的“开始扩展”按钮即可。扩展过程需要Internet连接,扩展成功后新的数据包可自动生效。扩展用时根据网络速度不同而不同,最快仅需数秒,最慢需要数分钟,烦请耐心等待。如扩展失败,可点击“扩展”界面左上角小锁图标切换为加密连接,即可很大程度上避免因防火墙或其他原因导致的连接失败。 本程序自V2.0版起采用全新的底层程序架构,使用了异步多线程编程技术,使得检测、下载、修复单独进行,互不干扰,快速如飞。新程序更改了自我校验方式,因此使用新版本的程序时不会再出现自我校验失败的错误;但并非取消自我校验,因此程序安全性与之前版本相同,并未降低。 程序有更新系统c++功能。由于绝大多数软件运行时需要c++的支持,并且c++的异常也会导致0xc000007b错误,因此程序在检测修复的同时,也会根据需要更新系统中的c++组件。自V3.2版本开始使用了全新的c++扩展包,可以大幅提高工业软件修复成功的概率。修复c++的功能仅限于增强版,标准版及在线修复版在系统c++异常时(非丢失时)会提示用户使用增强版进行修复。除常规修复外,新版程序还支持C++强力修复功能。当常规修复无效时,可以到本程序的选项界面内开启强力修复功能,可大幅提高修复成功率。请注意,请仅在常规修复无效时再使用此功能。 程序有两种窗口样式。正常模式即默认样式,适合绝大多数用户使用。另有一种简约模式,此时窗口将只显示最基本的内容,修复会自动进行,修复完成10秒钟后会自动退出。该窗口样式可以使修复工作变得更加简单快速,同时方便其他软件、游戏将本程序内嵌,即可进行无需人工参与的快速修复。开启简约模式的方法是:打开程序所在目录下的“Settings.ini”文件(如果没有可以自己创建),将其中的“FormStyle”一项的值改为“Simple”并保存即可。 新版程序支持命令行运行模式。在命令行中调用本程序,可以在路径后直接添加命令进行相应的设置。常见的命令有7类,分别是设置语言的命令、设置窗口模式的命令,设置安全级别的命令、开启强力修复的命令、设置c++修复模式的命令、控制Direct加速的命令、显示版权信息的命令。具体命令名称可以通过“/help”或“/?”进行查询。 程序有高级筛选功能,开启该功能后用户可以自主选择要修复的文件,避免了其他不必要的修复工作。同时,也支持通过文件进行辅助筛选,只要在程序目录下建立“Filter.dat”文件,其中的每一行写一个需要修复文件的序号即可。该功能仅针对高级用户使用,并且必须在正常窗口模式下才有效(简约模式时无效)。 本程序有自动记录日志功能,可以记录每一次检测修复结果,方便在出现问题时,及时分析和查找原因,以便找到解决办法。 程序的“选项”对话框中包含了7项高级功能。点击"常规”选项卡可以调整程序的基本运行情况,包括日志记录、安全级别控制、调试模式开启等。只有开启调试模式后才能在C
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页