资源简介
机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码
机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码
机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码
代码片段和文件信息
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv(‘R_Reviews.tsv‘ delimiter = ‘\t‘ quoting = 3)
######################################################################################
import re #清楚数字标点的标准库
import nltk #下载含有所有虚词的list
nltk.download(‘stopwords‘) #list名字:stopwords 下载
from nltk.corpus import stopwords #下载之后 载入字典
from nltk.stem.porter import PorterStemmer #stem:词根 PorterStemmer: 词根函数库
corpus = [] #空list
for i in range(0 1000):
review = re.sub(‘[^a-zA-Z]‘ ‘ ‘ dataset[‘Review‘][i]) #去除标点,数字,去除之后用空格代替,只留下大小写字母
review = review.lower() #全部转换成小写
review = review.split() #将句子字符串,转换成含有不同单词的list
ps = PorterStemmer() #取词根化的方程
review = [ps.stem(word) for word in review if not word in set(stopwords.words(‘english‘))] # 用词
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2519 2019-01-14 17:23 10\nlp.py
文件 61332 2016-11-15 10:38 10\R_Reviews.tsv
- 上一篇:机器学习8-朴素贝叶斯:数据集与
- 下一篇:28335数码管代码
相关资源
- 自己做的手写数字样本及knn分类代码
- 2012_donlp2_ansi_c
- 基于crf的中文命名实体识别完整代码
- 随机森林算法讲解及源码数据
- 中国科学院大学自然语言处理宗成庆
- SVD推荐算法教程
- 斯坦福大学机器学习第六周编程作业
- 《人工智能》的全套PPT课件
- UCI机器学习社区的葡萄酒品质评估数
- nlpcc2013样例集,excel版
- 机器学习实战——KNN算法代码+数据
- 十大经典算法机器学习及其程序实现
- Logistic回归来预测患疝气病的马的存活
- 基于HanLP的汉语词性标注表
- OpenCC windows版
- doc2vec训练与相似度计算.rar
- IBM SPSS Modeler 18.0 数据库内挖掘指南中
- CS229斯坦福机器学习讲义完整版PDF
- 机器学习8-朴素贝叶斯:数据集与
- 1_2019研究生《机器学习》期末试题参
- DBSCAN算法的基本原理及实现-dbscan.zi
- SVM与Logistic回归模型比较及SVM应用于多
- UCI经典分类二分类数据集
- 基于机器学习的文本分类.pptx
- 反向传播算法PPT
- 机器学习wine数据集
- QAnet源代码,内附运行说明
- cs224n:NLP视频中文字幕18集全集
- 最全Pima印第安人数据集
- 吴恩达机器学习全套视频教程
评论
共有 条评论