资源简介
Python数据挖掘入门与实践----Code(完整代码)
代码片段和文件信息
import os
import re
from mrjob.job import MRJob
from mrjob.step import MRStep
word_search_re = re.compile(r“[\w‘]+“)
class ExtractPosts(MRJob):
post_start = False
post = []
def mapper(self key line):
filename = os.environ[“map_input_file“]
gender = filename.split(“.“)[1]
try:
docnum = int(filename[0])
except:
docnum = 8
if filename.startswith(“51“):
# remove leading and trailing whitespace
line = line.strip()
if line == ““:
self.post_start = True
elif line == “ “:
self.post_start = False
yield gender repr(“\n“.join(self.post))
self.post = []
elif self.post_start:
self.post.append(line)
if __name__ == ‘__main__‘:
ExtractPosts.run()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 14242 2015-05-28 09:33 Code_REWRITE\Chapter 1\.ipynb_checkpoints\ch1_affinity-checkpoint.ipynb
文件 13797 2015-05-28 09:33 Code_REWRITE\Chapter 1\.ipynb_checkpoints\ch1_oner_application-checkpoint.ipynb
文件 1000 2014-10-10 03:13 Code_REWRITE\Chapter 1\affinity_dataset.txt
文件 14109 2016-10-23 00:27 Code_REWRITE\Chapter 1\ch1_affinity.ipynb
文件 3544 2014-10-10 03:13 Code_REWRITE\Chapter 1\ch1_affinity_create.ipynb
文件 13820 2016-10-23 00:28 Code_REWRITE\Chapter 1\ch1_oner_application.ipynb
文件 434745 2015-06-28 15:31 Code_REWRITE\Chapter 10\.ipynb_checkpoints\Chapter 10 (Cluster Types)-checkpoint.ipynb
文件 64766 2015-06-28 15:36 Code_REWRITE\Chapter 10\.ipynb_checkpoints\Chapter 10 Clusterer-checkpoint.ipynb
文件 1100672 2015-06-28 15:34 Code_REWRITE\Chapter 10\.ipynb_checkpoints\Chapter 10 Image creation 10_02.png-checkpoint.ipynb
文件 72 2015-06-28 15:29 Code_REWRITE\Chapter 10\.ipynb_checkpoints\Chapter 10-checkpoint.ipynb
文件 78925 2015-06-28 15:40 Code_REWRITE\Chapter 10\Chapter 10 Clusterer.ipynb
文件 58837 2015-06-28 15:17 Code_REWRITE\Chapter 11\Chapter 11 (CIFAR).ipynb
文件 62409 2015-06-28 15:02 Code_REWRITE\Chapter 11\Chapter 11 (Theano and Lasagne).ipynb
文件 38759 2015-06-28 15:22 Code_REWRITE\Chapter 12\CH12 MapReduce Basics.ipynb
文件 10578 2015-05-08 19:56 Code_REWRITE\Chapter 12\Chapter 12 (NB Predict).ipynb
文件 1730 2015-05-08 06:35 Code_REWRITE\Chapter 12\Chapter 12 (Test load).ipynb
文件 882 2015-05-08 16:49 Code_REWRITE\Chapter 12\extract_posts.py
文件 1986 2015-05-08 09:37 Code_REWRITE\Chapter 12\nb_predict.py
文件 2021 2015-05-08 08:44 Code_REWRITE\Chapter 12\nb_train.py
文件 128669 2015-05-28 10:08 Code_REWRITE\Chapter 2\.ipynb_checkpoints\Ionosphere Nearest Neighbour-checkpoint.ipynb
文件 128669 2015-05-28 10:08 Code_REWRITE\Chapter 2\Ionosphere Nearest Neighbour.ipynb
文件 42423 2015-05-28 10:17 Code_REWRITE\Chapter 3\.ipynb_checkpoints\Basketball Results #2-checkpoint.ipynb
文件 78859 2015-07-07 04:05 Code_REWRITE\Chapter 3\.ipynb_checkpoints\Basketball Results-checkpoint.ipynb
文件 77581 2015-07-07 05:59 Code_REWRITE\Chapter 3\Basketball Results.ipynb
文件 49404 2014-12-03 11:41 Code_REWRITE\Chapter 4\ch4 Affinity Analysis.ipynb
文件 14241 2015-05-29 11:35 Code_REWRITE\Chapter 5\.ipynb_checkpoints\ch5_adult-checkpoint.ipynb
文件 29985 2015-05-29 12:00 Code_REWRITE\Chapter 5\.ipynb_checkpoints\ch5_advertisements-checkpoint.ipynb
文件 1034 2015-05-29 11:33 Code_REWRITE\Chapter 5\adult_tests.py
文件 14241 2015-05-29 11:35 Code_REWRITE\Chapter 5\ch5_adult.ipynb
文件 29985 2015-05-29 12:00 Code_REWRITE\Chapter 5\ch5_advertisements.ipynb
............此处省略38个文件信息
相关资源
- python+pyqt图书管理系统
- deep learning with python 中文版
- Python黑帽子 黑客与渗透测试编程之道
- 树莓派Python编程入门与实战
- python,pygame开发的太空大战源代码
- 最大匹配法分词Python
- 疫情数据爬虫并绘制柱状图.py
- 天天生鲜Python版前端页面
- Python-中国科学院大学教务抢课程序多
- 《Python绝技》:运用Python成为顶级黑
- Introduction to machine learning with python (
- python 去掉重复行
- 上采样/上变频/半带滤波器设计仿真代
- python遗传算法解决八皇后问题
- Data Science from Scratch First Principles wit
- python小说阅读系统
- python新浪微博爬虫,爬取微博和用户
- 计算机语言学n-gram算法的python实现
- pygame小游戏-全民打飞机(关卡选择飞
- Python 飞机大战 增强版本完整代码实现
- Learning Data Mining With Python book 代码及数
- Python数据挖掘入门与实践 数据集及代
- Python数据爬虫及可视化分析
- python小波包文档及论文.zip
- Python-100-Days-master.rar
- Introduction to Programming in Python An Inter
- Introduction to Machine Learning with Python.p
- gan简单代码实现python
- python安装器easy_install
- python火车票查询软件及源码
评论
共有 条评论