相思资源网 Design By www.200059.com

最近再学习spark streaming做实时计算这方面内容,过程中需要从后台数据库导出数据到hdfs中,经过调研发现需要使用sqoop进行操作,本次操作环境是Linux下。

首先确保环境安装了Hadoop和sqoop,安装只需要下载 ,解压 以及配置环境变量,这里不多说了,网上教程很多。

一、配置sqoop以及验证是否成功

切换到配置文件下:cd $SQOOP_HOME/conf

创建配置环境文件: cp sqoop-env-template.sh sqoop-env.sh

修改配置文件:conf/vi sqoop-env.sh:修改内容如下

sqoop读取postgresql数据库表格导入到hdfs中的实现

配置完成后,执行命令sqoop-version ,检查是否成功,如图显示sqoop 1.4.7即成功。

sqoop读取postgresql数据库表格导入到hdfs中的实现

二、添加postgresql驱动jar包

因为这里使用sqoop读取postgresql的数据,所以需要将数据库驱动包放到$SQOOP_HOME/lib 下即可 。

三、导入pg数据库中表到hdfs中

1、首先要启动Hadoop集群,不然会报错

执行语句 $HADOOP_HOME/sbin/./start-all.sh

2、执行sqoop语句进行数据导入到hdfs

sqoop import   --connect jdbc:postgresql:localhost:5432/test(数据库的名称)
  --username postgres (填自己的数据库用户名)
  --password 888888 (填自己数据库的密码)
  --table company (自己创建表的名称)
  --m 1 (mapreduce的个数)

执行结果如图:

sqoop读取postgresql数据库表格导入到hdfs中的实现

3、检查hdfs上是否成功存储到表数据

$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(数据目录改成自己的)

结果如图所示:

sqoop读取postgresql数据库表格导入到hdfs中的实现

显示使用sqoop 将 postgreql上的表格数据成功导入到hdfs中,这算今天也有点收获了!

补充:利用Sqoop从PostgreSQL导入数据时遇到的坑

sqoop import --connect "jdbc:postgresql://10.101.70.169:5432/db_name" --username "postgres" --password "123456" --table "test_user"--target-dir "/user/hive/warehouse/test.db/test_user" --fields-terminated-by '\t' --lines-terminated-by '\n' --hive-drop-import-delims --incremental lastmodified --merge-key id --check-column update_time --last-value "2019-03-25" --m 1 -- --schema "schema_name" --null-string '\\N' --null-non-string '\\N' 

1、-- --schema 一定要放在后面,否则可能导致无运行日志或无法导入数据到指定目录且无法重新执行(报目录已存在)

2、PostgreSQL 须设置SET standard_conforming_strings = on;,否则--null-string和--null-non-string不起作用;

3、--null-string--null-non-string放在-- --schema后面,否则执行时报Can't parse input data: '\N'

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。

标签:
sqoop,postgresql表格,导入hdfs

相思资源网 Design By www.200059.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
相思资源网 Design By www.200059.com

评论“sqoop读取postgresql数据库表格导入到hdfs中的实现”

暂无sqoop读取postgresql数据库表格导入到hdfs中的实现的评论...

RTX 5090要首发 性能要翻倍!三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。

据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。