资源简介
hive spark hadoop
代码片段和文件信息
#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-
#coding=utf-8
#===============================================================================
#
# FILE: collect_sms_ready_snowball.py
#
# USAGE: python collect_sms_ready_snowball.py 时间参数1(YYYYMMDD) 时间参数2(YYYYMMDD)
#
# DEscriptION:
#
# OPTIONS: ---
# REQUIREMENTS:
# BUGS: ---
# NOTES: ---
# AUTHOR: penghao.qiao
# COMPANY: MSXF
# VERSION: 1.0
# CREATED:
# REVIEWER:
# REVISION: ---
# TGT_TABLE:
#===============================================================================
import MySQLdb
import sys
import os
import string
import datetime
import time
sys.path.append(os.getenv(‘BDP_CONN‘));import aes as ConfigParser
from BdpConnector import *
from Calendar import *
from HiveTasks import *
import traceback
reload(sys)
sys.setdefaultencoding( “utf-8“ )
config=ConfigParser.ConfigParser()
config.read(“/home/hadoop/edw/etl/conf/etl.ini“)
tag_db = ‘x_sell‘
tag_tab = ‘collect_sms_ready_snowball‘
src_db= ‘fdl‘
src_tab = ‘fdl_cust_info_chainfdl_acct_det_chainfdl_loanrpy_plan_chainfdl_loanbor_term_chain‘
hts = HiveTasks(tag_dbtag_tab)
dte=Calendar(datetime.datetime.today())
#字符型起始日期
v_statbgdate = sys.argv[1]
#字符型结束日期
v_stateddate = sys.argv[2]
#日期型起始日期
v_start_date = datetime.datetime.strptime(v_statbgdate‘%Y%m%d‘).date()
#日期型结束日期
v_end_date = datetime.datetime.strptime(v_stateddate‘%Y%m%d‘).date()
#当前时间
v_run_time = datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
#当前日期
v_run_date = datetime.datetime.now().strftime(“%Y%m%d“)
#etl抽数日期
v_etl_date = datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
#T+1统计日期
v_yest_date = dte.getDayBefore(‘‘)
#前天日期
v_bf_yest_date = dte.getDayBeforeN(‘‘2)
#对时间参数进行处理
if v_statbgdate.strip()==‘‘ and v_stateddate.strip()==‘‘:
v_statbgdate=v_yest_date
v_stateddate=v_yest_date
elif v_statbgdate.strip()!=‘‘ and v_stateddate.strip()==‘‘:
v_stateddate=v_statbgdate
elif v_statbgdate.strip()==‘‘ and v_stateddate.strip()!=‘‘:
v_statbgdate=v_stateddate
#定义lzo数据索引路径
lzo_index_path=None
#定义该表数据是否要压缩
lzo_compress = False
#定义是否有分区
is_partition = True
#定义数据文件是否要做合并
merge_flag = False
#合并文件路径
merge_part_dir = None
#定义是否需要做表解析
parse_flag = False
#################Need user configure the parameters####################
v_begin_time=datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
conn=MySQLdb.connect(host=config.get(“MYSQL_DB““IP“)port=int(config.get(“MYSQL_DB““PORT“))user=config.get(“MYSQL_DB““USERNAME“)passwd=config.get(“MYSQL_DB““PASSWORD“)db=config.get(“MYSQL_DB““DB“))
cur=conn.cursor()
v_sql = “““
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.dynamic.partitions.pernode=100000;
set fs.hdfs.impl.disable.cache = true;
use fdl;
-------筛选出一对一,一对多(合同)数据去除和包产品----------
drop table if exists tmp.tmp_collect_sms_ready_snowball_01;
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 25 2018-03-01 11:35 edwsc
文件 303 2018-03-01 11:34 edwsc
文件 73 2018-03-01 11:34 edwsc
文件 23 2018-03-01 11:34 edwsc
文件 478 2018-03-01 11:34 edwsc
文件 896 2018-03-01 11:34 edwsc
文件 189 2018-03-01 11:34 edwsc
文件 424 2018-03-01 11:34 edwsc
文件 1642 2018-03-01 11:34 edwsc
文件 1348 2018-03-01 11:34 edwsc
文件 4951 2018-03-01 11:34 edwsc
文件 544 2018-03-01 11:34 edwsc
文件 1239 2018-03-01 11:34 edwsc
文件 3610 2018-03-01 11:34 edwsc
文件 142544 2018-03-01 11:35 edwsc
文件 240 2018-03-01 11:34 edwsc
文件 350 2018-03-01 11:35 edwsc
文件 350 2018-03-01 11:35 edwsc
文件 185 2018-03-01 11:34 edwsc
文件 147 2018-03-01 11:35 edwsc
文件 1929 2018-03-01 11:35 edwsc
文件 268 2018-03-01 11:35 edwsc
文件 189 2018-03-01 11:35 edwsc
文件 165 2018-03-01 11:35 edwsc
文件 282 2018-03-01 11:35 edwsc
文件 325 2018-03-01 11:35 edwsc
文件 365688 2018-03-01 11:34 edwsc
文件 4953896 2018-03-01 11:34 edwsc
文件 594 2018-03-01 11:34 edwsc
文件 41 2018-03-01 11:35 edwsc
............此处省略1374个文件信息
相关资源
- Centos 7安装配置Hadoop生态圈CDH5版本
- Hadoop The Definitive Guide 4th Edition英文版
- 《Streaming Systems》 英文版 完整版
- Spark机器学习.pdf
- CDH开启Kerberos+Sentry权限控制-实施配置
- Spark商业实战三部曲源码
- spark+scala学习
- Hive编程指南-可搜索带书签体积小清晰
- Apache Hadoop YARN.pdf完整电子版
- MapReduce实现矩阵相乘算法
-
Spark Datafr
ame详解.zip - Centos7.2安装Ambari2.4.2+HDP2.5.3搭建Hadoo
- hadoop权威指南---气象数据1901-1930年
- hadoop 32位native-lib包,亲测可用
- 基于Spark框架的聚类算法研究
- oozie -4.3.0 .tar for linux.64
- 实时分析-分析和可视化流数据的技术
- Spark快速大数据分析
- Cloudera Custom Training: Hands-On Exercises
- winutils包
- [PDF]Hadoop MapReduce Cookbook v2 (文字版)
- Hadoop (2.X版本) 管理与开发
- 大数据技术与经验分享
- 基于hadoop商品推荐系统课程设计
- hadoop dll winutils 各种版本
- Spark快速大数据分析高清带标签pdf+全
- Spark高级数据分析-中文完整
- 基于 Flume+ Kafka+ Spark Streaming 实现实时
- Data.Analytics.with.Hadoop.An.Introduction.for
- Spark快速大数据分析—中文版
评论
共有 条评论