2018-06-30

Python Url解码，判断字符串编码

参考https://www.jianshu.com/p/53bb448fe85b
http://www.cnblogs.com/kaituorensheng/p/3927000.html
检测字符串编码是utf8还是GBK

先通过type()判断字符串的类型，是str还是unicode，如果是str，使用如下方式解码

import urllib
rawurl = "%E6%B2%B3%E6%BA%90"
url = urllib.unquote(rawurl)
print(url)

如果是unicode，则要先转成str，再进行解码

1
2
3

url_temp= url_temp.encode('UTF-8')
url_temp = urllib.unquote(url_temp)
event["url"] = url_temp

2018-06-29

编程

Linux单独安装oracle客户端

linux单独安装oracle客户端及exp/imp工具配置
这个链接的文章讲的非常好。其中有一些需要注意的我写下来以便查阅。

下边的配置最好不要，因为可能会引起乱码。如果已经出现了乱码，把它删掉，然后关闭连接服务器的窗口，重新打开打开一个窗口连接服务器。

1	export NLS_LANG='simplified chinese_china.ZHS16GBK'

tnsnames.ora文件的位置不要放错了，是在network/admin目录下。还有里面的内容一定要顶格写，不能有缩进，否则会报错ORA-12154: TNS:could not resolve the connect identifier specified。这个文件中有四个参数需要改，第一行的名字DESCRIPTION，还有服务器名，端口号，还有SERVICE_NAME,其中DESCRIPTION和SERVICE_NAME最好一致。配置如下：

orac1 =  
(DESCRIPTION =  
  (ADDRESS = (PROTOCOL = TCP)(HOST = www.hohode.com)(PORT = 1521))  
  (CONNECT_DATA =  
    (SERVER = DEDICATED)  
    (SERVICE_NAME = orac1)  
   )  
)

下边的配置是错误的，因为有缩进，导致连不上oracle服务。

orac1 =  
(DESCRIPTION =  
  (ADDRESS = (PROTOCOL = TCP)(HOST = www.hohode.com)(PORT = 1521))  
  (CONNECT_DATA =  
    (SERVER = DEDICATED)  
    (SERVICE_NAME = orac1)  
   )  
)

登录oracle

1 2	sqlplus /nolog conn username/password@service_name

2018-06-24

编程

There Was a Problem Confirming the Ssl Certificate: [SSL: TLSV1_ALERT_PROTOCOL_VERSION] Tlsv1 Alert Protocol Version (_ssl.c:590) - Skipping

参考 http://www.qingpingshan.com/m/view.php?aid=384613

在mac上使用pip安装软件包scrapy，报ssl错误：

Collecting scrapy
Could not fetch URL https://pypi.python.org/simple/scrapy/: There was a problem confirming the ssl certificate: [SSL: TLSV1_ALERT_PROTOCOL_VERSION] tlsv1 alert protocol version (_ssl.c:661) - skipping
Could not find a version that satisfies the requirement scrapy (from versions: )
No matching distribution found for scrapy

相关软件版本
python：2.7
pip：9.0.1
OSX Sierra 10.12.6
解决方法：

升级pip到最新版本（至少9.0.3）

1	curl https://bootstrap.pypa.io/get-pip.py \| python

原因是 Python.org sites 终止支持TLS1.0和1.1，TLS需要>=1.2

参考：https://stackoverflow.com/questions/49768770/not-able-to-install-python-packages-ssl-tlsv1-alert-protocol-version

2018-06-21

编程

Impala知识

impala导出查询结果到文件

2018-06-11

编程

Spark-Shell执行spark 文件

Spark file example, a.scala

import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
import org.apache.spark.sql.{Dataset, SaveMode, SparkSession}

val argArray = spark.sparkContext.getConf.get("spark.driver.args").split("\\s+")
print(argArray)
val logs = spark.read.json(argArray(0)).select("cats")
logs.cache()
logs.createOrReplaceTempView("tracker")

val sql1 = "select count(1) from  tracker  where cats.cat='store' and cats.act='aa'"
spark.sql(sql1).show(false)

val sql2 = "select count(1) from (select explode(cats) cats from tracker ) where cats.cat='store' and cats.act='bb'"
spark.sql(sql1).show(false)
spark.close()

run script example test.sh

#!/bin/bash

TaskName="mianfei"
cd `dirname $0`
/data/work/spark2.0/bin/spark-shell \
-i mianfei.scala \
--name ${TaskName} \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--num-executors 15 \
--executor-cores 2 \
--conf spark.driver.args="/data/logs/20180609/* helloworld"
exit 0

2018-06-07

编程

Maven依赖

maven可选依赖（Optional Dependencies）和依赖排除（Dependency Exclusions）
应该可以再打包的时候只将用到的类打进去。

2018-06-07

编程

Spark使用explode展开json中的List和Map

Spark 学习笔记使用java —explode

2018-06-05

编程

Python操作oracle,日期比较和查询表中所有字段

Python访问远程oracle，需要安装一些软件，而这个过程简直就像shit
cx_Oracle 是一个 Python访问oracle的扩展模块。
1.安装cx_Oracle

1 2	yum install python-pip pip install cx_Oracle

2.下载两个访问oracle需要用到的rpm
下载地址
下载过程就像shit,又强制注册，又多次弹出没有同意条款的，多试几次,看你运气了。
3.安装软件

1	rpm -ivh oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm

4.加入环境变量

1
2
3

vim /etc/profile
export LD_LIBRARY_PATH=/usr/lib/oracle/12.2/client64/lib:$LD_LIBRARY_PATH
source /etc/profile

5.创建一个a.py文件

1
2
3

import cx_Oracle
con = cx_Oracle.connect('eqxiu_dev/keqs123@test.db.hohode.cn/oragbk')
print con.version

6.测试是否成功

1	python a.py

如果出现类似如下的版本号，说明成功了。

1	10.2.0.4.0

日期比较和查询表中所有字段

import cx_Oracle
con = cx_Oracle.connect('username/password@host/server')
print con.version
cur = con.cursor()
cur.execute("select * from base_user where REG_TIME >= to_date('2018-08-08 00:00:00','yyyy-mm-dd hh24:mi:ss') and rownum<20 ")
for result in cur:
    print result

columnsnames = cur.execute("select COLUMN_NAME from user_tab_columns where TABLE_NAME='BASE_USER'").fetchall()
for name in columnsnames:
	print name
cur.close()
con.close()

Oracle日期类型的比较
其它查询http://www.oracle.com/technetwork/articles/dsl/python-091105.html
参考 https://www.linuxidc.com/Linux/2010-10/29187.htm

2018-06-01

编程

Python知识

使用with读取文件，并去掉末尾的换行符

1 2	with open(filename) as f: mylist = f.read().splitlines()

Python实现钉钉发送报警消息

[‘utf8’ codec can’t decode byte 0xe1 in position 25: invalid

continuation byte](https://stackoverflow.com/questions/19872773/unicodedecodeerror-while-using-json-dumps)

2018-05-31

编程

Sqoop学习笔记

将数据库中的数据导入hive中

列出数据库中所有的表

1 2	sqoop list-tables --connect jdbc:oracle:thin:@192.168.1.22:1521:oragbk --username 'dev' --password '123'

任务重命名,使用多个mapper

sqoop import -D mapred.job.name=sqoop_import_base_user$i --append --connect jdbc:oracle:thin:@2.1.8.10:1521:aaa --username 'bbb' --password 'r6' --target-dir /data/db/ -m 10 --fields-terminated-by '\001' --split-by es.id  --query "$q" -hive-drop-import-delims

如果不制定 -m 参数,导入的时候数据可能会被分成多个split，可能会导致导入后的数据少或者重复

18/06/28 11:37:35 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT MIN(`id`), MAX(`id`) FROM `base_user`
18/06/28 11:37:35 WARN db.TextSplitter: Generating splits for a textual index column.
18/06/28 11:37:35 WARN db.TextSplitter: If your database sorts in a case-insensitive order, this may result in a partial import or duplicate records.
18/06/28 11:37:35 WARN db.TextSplitter: You are strongly encouraged to choose an integral split column.
18/06/28 11:37:35 INFO mapreduce.JobSubmitter: number of splits:6

自动创建表结构
自定义任务名
oracle数据的表名和列名都需要大写

sqoop import -D mapred.job.name=sqoop_import_EQS_ORDER_INVOICE --connect jdbc:oracle:thin:@hohode.cn:1521:hello --username 'root' --password '123' --table INVOICE --hive-import -m 1 --hive-table default.invoice2 --hive-overwrite --map-column-hive ID=string,INVOICE_TYPE=string

–map-column-java ID=String 完全不起作用，还是使用–map-column-hive ID=string

WARN

如果一个oracle或者mysql数据表的一个字段中含有\n换行符，这会导致导入hive中的数据比之前数据表中的数据要多，这个时候要使用–hive-drop-import-delims将换行符等去掉。

导入hive终极语句

/bin/sqoop import -D mapred.job.name=sqoop_import_student --connect jdbc:oracle:thin:@hohode.com:1521:w --username 'root' --password '123456' --table student --hive-import -m 1  --hive-drop-import-delims --hive-table test.student --hive-overwrite --map-column-hive ID=string,INVOICE_TYPE=string

mapper为20，并且指定了split-by参数

/bin/sqoop import -D mapred.job.name=sqoop_import_base_user --connect jdbc:oracle:thin:@2.3.8.10:1521:qx --username 'qx' --password 'e$q3s#hr6' --table BASE_USER --hive-import -m 20  --hive-drop-import-delims --hive-table qxdb.base_user --hive-overwrite --map-column-hive TYPE=string,STATUS=string,CHECK_EMAIL=string,CHECK_PHONE=string,SECURITY_LEVEL=string --split-by REG_TIME

指定map-column-hive的decimal类型

/bin/sqoop import -D mapred.job.name=sqoop_import_orders --connect jdbc:mysql://101.0.2.2:3306/print --username 'root' --password 'hello' --table orders --hive-import -m 1  --hive-drop-import-delims --hive-table db.orders --hive-overwrite  --map-column-hive 'total_fee=decimal(15%2C2)'

常见问题

1.出现 org.apache.sqoop.Sqoop 找不到主类

解决 : 把 sqoop 目录下的 sqoop-1.4.4.jar 拷贝到 hadoop 的 lib 目录下
cd /opt/cloudera/parcels/CDH/lib/hadoop
sudo ln -s ../../jars/sqoop-1.4.5-cdh5.3.3.jar ./

2.mysql 类加载不到

解决 : 下载 mysql JDBC 放到 hadoop 目录下即可
cd /opt/cloudera/parcels/CDH/lib/hadoop
sudo ln -s ../../jars/mysql-connector-java-5.1.31.jar ./

3.HADOOP_MAPRED_HOME is /usr/lib/hadoop-mapreduce 找不到
ERROR tool.ImportTool: Imported Failed: Parameter ‘directory’ is not a directory

解决 : sudo ln -s /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce /usr/lib/hadoop-mapreduce