资源简介
java项目 基于Hadoop对网站日志数据分析 使用MapReduce框架进行分析,并包含150M的网站日志数据
代码片段和文件信息
package com.zzhao;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class LogClean {
private static String FOLDER_INPUT = “Resource/input“;
private static String FOLDER_OUTPUT = “Resource/output“;
private static long PV = 0;
private static long register = 0;
private static long IP = 0;
private static long jumper = 0;
public static void main(String[] args) throws IOException ClassNotFoundException InterruptedException {
Configuration cfg = new Configuration();
Job job = Job.getInstance(cfg);
job.setMapperClass(LogCleanMapper.class);
job.setReducerClass(LogCleanReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileInputFormat.addInputPath(job new Path(FOLDER_INPUT));
Path outputDir = new Path(FOLDER_OUTPUT);
FileSystem fs = FileSystem.get(cfg);
if (fs.exists(outputDir)) {
fs.delete(outputDir true);
}
FileOutputFormat.setOutputPath(job outputDir);
boolean flag = job.waitForCompletion(true);
if (flag) {
System.out.println(“\tClean process success!\n\n\n“);
System.out.println(“\tPV量:\t\t“ + PV);
System.out.println(“\t注册用户数:\t“ + register);
System.out.println(“\t独立IP数:\t“ + IP);
System.out.println(“\t跳出用户数:\t“ + jumper);
} else {
System.out.println(“Clean process failed!“);
}
}
static class LogCleanMapper extends Mapper {
LogParser logParser = new LogParser();
Text k = new Text();
Text v = new Text();
protected void map(LongWritable key Text value
org.apache.hadoop.mapreduce.Mapper.Context context)
throws java.io.IOException InterruptedException {
PV += 1;
final String[] parsed = logParser.parse(value.toString());
// step1.过滤掉静态资源访问请求
if (parsed[2].startsWith(“GET /static/“) || parsed[2].startsWith(“GET /uc_server“)) {
return;
}
// step2.过滤掉开头的指定字符串
if (parsed[2].startsWith(“GET /“)) {
parsed[2] = parsed[2].substring(“GET /“.length());
} else if (parsed[2].startsWith(“POST /“)) {
parsed[2] = parsed[2].substring(“POST /“.length());
}
// step3.过滤掉结尾的特定字符串
if (parsed[2].endsWith(“ HTTP/1.1“)) {
parsed[2] = parsed[2].substring(0 parsed[2].length() - “ HTTP/1.1“.length());
}
// step4.只写入前三个记录类型项
k.set(parsed[0]);
v.set(parsed[1] + “\t\t“ + parsed[2]);
context.write(k v);
// 判断是否新用户
if (p
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 6132 2019-06-04 11:07 Hadoop\.classpath
文件 382 2019-06-04 10:27 Hadoop\.project
文件 57 2019-06-04 14:15 Hadoop\.settings\org.eclipse.core.resources.prefs
文件 3118 2019-06-11 15:54 Hadoop\bin\com\zzhao\LogClean$LogCleanMapper.class
文件 2275 2019-06-11 15:54 Hadoop\bin\com\zzhao\LogClean$LogCleanReducer.class
文件 3499 2019-06-11 15:54 Hadoop\bin\com\zzhao\LogClean.class
文件 2529 2019-06-11 15:53 Hadoop\bin\com\zzhao\LogParser.class
文件 61084192 2019-06-04 13:56 Hadoop\bin\input\access_2013_05_30.log
文件 157069653 2019-06-04 14:32 Hadoop\bin\input\access_2013_05_31.log
文件 879 2019-06-04 10:49 Hadoop\bin\log4j.properties
文件 567 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$CachedUid.class
文件 644 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX$CachedName.class
文件 1545 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX$CacheManipulator.class
文件 1302 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX$IdCache.class
文件 1592 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX$NoMlockCacheManipulator.class
文件 2575 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX$Stat.class
文件 9842 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$POSIX.class
文件 1595 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$Windows$AccessRight.class
文件 2316 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO$Windows.class
文件 9297 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\io\nativeio\NativeIO.class
文件 30453 2019-06-11 15:53 Hadoop\bin\org\apache\hadoop\mapred\YARNRunner.class
文件 428480 2019-06-04 15:48 Hadoop\bin\output\.part-r-00000.crc
文件 8 2019-06-04 15:48 Hadoop\bin\output\._SUCCESS.crc
文件 54844160 2019-06-04 15:48 Hadoop\bin\output\part-r-00000
文件 0 2019-06-04 15:48 Hadoop\bin\output\_SUCCESS
文件 62983 2016-01-14 08:45 Hadoop\lib\activation-1.1.jar
文件 4467 2016-01-14 08:45 Hadoop\lib\aopalliance-1.0.jar
文件 44925 2016-01-14 08:45 Hadoop\lib\apacheds-i18n-2.0.0-M15.jar
文件 691479 2016-01-14 08:45 Hadoop\lib\apacheds-kerberos-codec-2.0.0-M15.jar
文件 16560 2016-01-14 08:45 Hadoop\lib\api-asn1-api-1.0.0-M20.jar
............此处省略124个文件信息
相关资源
- mysql数据处理,java用户登录处理
- 法律咨询信息系统(java+jsp+sqlserver)
- Java快速开发平台源码(renren-fast)
- 锐聘学院QST青软JavaWeb十二个打包
- 3.3.6微信支付JAVA版demo
- javaweb网上购物系统源码(附数据库脚
- javaweb校园宿舍系统(附数据库脚本)
- JavaWeb书城项目(附数据库脚本)
- 基于JAVA_JSP电子书系统(源码+数据库
- Java网络编程知识点总结.xmind
- 一站式Java网络编程 BIO-NIO-AIO资料源码
- jsp讲解
- 基于SSH框架的JavaWeb项目—人员信息管
- javaweb实现的邮件收发系统(附数据库
- Java 仿QQ(附客户端以及服务端源码)
- Java TCP IP Socket
- java定时发送邮件(基于quartz)
- Java Swing开发的《星际争霸》游戏
- java+数据库商品交易管理系统(附数据
- 使用java语言编译一个计算器
- java swing工资管理系统(源码+数据库
- JAVALibrary
- 微信企业号回调模式Java版
- 顺丰丰桥接口开发详细教程源码含下
- Java博客概要设计文档
- 药品进销存管理系统(论文范文_JSP
- 奖学金管理系统java+jsp+mysql
- 毕设参考——基于java酒店管理
- Java写的一个简单的字体更改程序
- java8学习教程之lambda表达式的使用方法
评论
共有 条评论