资源简介
hive spark hadoop

代码片段和文件信息
#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-
#coding=utf-8
#===============================================================================
#
# FILE: collect_sms_ready_snowball.py
#
# USAGE: python collect_sms_ready_snowball.py 时间参数1(YYYYMMDD) 时间参数2(YYYYMMDD)
#
# DEscriptION:
#
# OPTIONS: ---
# REQUIREMENTS:
# BUGS: ---
# NOTES: ---
# AUTHOR: penghao.qiao
# COMPANY: MSXF
# VERSION: 1.0
# CREATED:
# REVIEWER:
# REVISION: ---
# TGT_TABLE:
#===============================================================================
import MySQLdb
import sys
import os
import string
import datetime
import time
sys.path.append(os.getenv(‘BDP_CONN‘));import aes as ConfigParser
from BdpConnector import *
from Calendar import *
from HiveTasks import *
import traceback
reload(sys)
sys.setdefaultencoding( “utf-8“ )
config=ConfigParser.ConfigParser()
config.read(“/home/hadoop/edw/etl/conf/etl.ini“)
tag_db = ‘x_sell‘
tag_tab = ‘collect_sms_ready_snowball‘
src_db= ‘fdl‘
src_tab = ‘fdl_cust_info_chainfdl_acct_det_chainfdl_loanrpy_plan_chainfdl_loanbor_term_chain‘
hts = HiveTasks(tag_dbtag_tab)
dte=Calendar(datetime.datetime.today())
#字符型起始日期
v_statbgdate = sys.argv[1]
#字符型结束日期
v_stateddate = sys.argv[2]
#日期型起始日期
v_start_date = datetime.datetime.strptime(v_statbgdate‘%Y%m%d‘).date()
#日期型结束日期
v_end_date = datetime.datetime.strptime(v_stateddate‘%Y%m%d‘).date()
#当前时间
v_run_time = datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
#当前日期
v_run_date = datetime.datetime.now().strftime(“%Y%m%d“)
#etl抽数日期
v_etl_date = datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
#T+1统计日期
v_yest_date = dte.getDayBefore(‘‘)
#前天日期
v_bf_yest_date = dte.getDayBeforeN(‘‘2)
#对时间参数进行处理
if v_statbgdate.strip()==‘‘ and v_stateddate.strip()==‘‘:
v_statbgdate=v_yest_date
v_stateddate=v_yest_date
elif v_statbgdate.strip()!=‘‘ and v_stateddate.strip()==‘‘:
v_stateddate=v_statbgdate
elif v_statbgdate.strip()==‘‘ and v_stateddate.strip()!=‘‘:
v_statbgdate=v_stateddate
#定义lzo数据索引路径
lzo_index_path=None
#定义该表数据是否要压缩
lzo_compress = False
#定义是否有分区
is_partition = True
#定义数据文件是否要做合并
merge_flag = False
#合并文件路径
merge_part_dir = None
#定义是否需要做表解析
parse_flag = False
#################Need user configure the parameters####################
v_begin_time=datetime.datetime.now().strftime(“%Y-%m-%d %H:%M:%S“)
conn=MySQLdb.connect(host=config.get(“MYSQL_DB““IP“)port=int(config.get(“MYSQL_DB““PORT“))user=config.get(“MYSQL_DB““USERNAME“)passwd=config.get(“MYSQL_DB““PASSWORD“)db=config.get(“MYSQL_DB““DB“))
cur=conn.cursor()
v_sql = “““
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.dynamic.partitions.pernode=100000;
set fs.hdfs.impl.disable.cache = true;
use fdl;
-------筛选出一对一,一对多(合同)数据去除和包产品----------
drop table if exists tmp.tmp_collect_sms_ready_snowball_01;
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 25 2018-03-01 11:35 edwsc
文件 303 2018-03-01 11:34 edwsc
文件 73 2018-03-01 11:34 edwsc
文件 23 2018-03-01 11:34 edwsc
文件 478 2018-03-01 11:34 edwsc
文件 896 2018-03-01 11:34 edwsc
文件 189 2018-03-01 11:34 edwsc
文件 424 2018-03-01 11:34 edwsc
文件 1642 2018-03-01 11:34 edwsc
文件 1348 2018-03-01 11:34 edwsc
文件 4951 2018-03-01 11:34 edwsc
文件 544 2018-03-01 11:34 edwsc
文件 1239 2018-03-01 11:34 edwsc
文件 3610 2018-03-01 11:34 edwsc
文件 142544 2018-03-01 11:35 edwsc
文件 240 2018-03-01 11:34 edwsc
文件 350 2018-03-01 11:35 edwsc
文件 350 2018-03-01 11:35 edwsc
文件 185 2018-03-01 11:34 edwsc
文件 147 2018-03-01 11:35 edwsc
文件 1929 2018-03-01 11:35 edwsc
文件 268 2018-03-01 11:35 edwsc
文件 189 2018-03-01 11:35 edwsc
文件 165 2018-03-01 11:35 edwsc
文件 282 2018-03-01 11:35 edwsc
文件 325 2018-03-01 11:35 edwsc
文件 365688 2018-03-01 11:34 edwsc
文件 4953896 2018-03-01 11:34 edwsc
文件 594 2018-03-01 11:34 edwsc
文件 41 2018-03-01 11:35 edwsc
............此处省略1374个文件信息
相关资源
- 《Hadoop大数据技术》课程设计报告.
- Hadoop.in.Practice.2nd.Edition
- 基于Greenplum Hadoop- 分布式平台的大数
- 构建用户自画像视频教程真实企业项
- hdp安装手册
- Spark技术内幕 深入解析Spark内核架构设
- 基于Spark的PSO并行计算
- hadoop技术内幕三件套
- [百度网盘]Hadoop技术内幕 深入解析M
- Hadoop技术内幕 深入解析YARN架构设计与
- spark streaming技术内幕与源码剖析
- Hadoop技术内幕:深入解析YARN架构设计
- Hadoop技术内幕 完整三本合集baidu链接
- Graph Algorithms:Practical Examples in Apach
- 中国大数据技术与产业发展报告
- The Apache Ignite book PDF(正版购买的全网
- 在Hadoop生态中大数据平台架构与实践
- Archiver For Mac v3.0.3 序列号
- hadoop集群搭建教程.zip
- Hadoop技术内幕 深入解析HADOOP COMMON和
- hive2.0源码
- spark 机器学习 第二版 含源码 高清版
- 大数据技术之面试题 .pdf
- 大数据项目之电商分析平台.pdf
- 大数据技术之Hive.pdf
- windows64位平台的hadoop2.8.4插件包(ha
- Spark机器学习 (彭特里思著) 中文
- hadoop-2.5.0-cdh5.3.6 编译native包
- MapReduce基于物品的协同过滤算法实现
- 大数据组件介绍PPT
评论
共有 条评论