• 大小: 25KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: 其他
  • 标签: 机器学习  NLP  

资源简介

机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码 机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码 机器学习(10)-NLP自然语言处理大量餐馆评论:数据集与源码

资源截图

代码片段和文件信息


import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv(‘R_Reviews.tsv‘ delimiter = ‘\t‘ quoting = 3)

######################################################################################
import re #清楚数字标点的标准库
import nltk #下载含有所有虚词的list
nltk.download(‘stopwords‘) #list名字:stopwords 下载
from nltk.corpus import stopwords #下载之后 载入字典
from nltk.stem.porter import PorterStemmer #stem:词根 PorterStemmer: 词根函数库
corpus = [] #空list
for i in range(0 1000):
    review = re.sub(‘[^a-zA-Z]‘ ‘ ‘ dataset[‘Review‘][i]) #去除标点,数字,去除之后用空格代替,只留下大小写字母
    review = review.lower() #全部转换成小写
    review = review.split() #将句子字符串,转换成含有不同单词的list 
    ps = PorterStemmer() #取词根化的方程
    review = [ps.stem(word) for word in review if not word in set(stopwords.words(‘english‘))] # 用词

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        2519  2019-01-14 17:23  10\nlp.py
     文件       61332  2016-11-15 10:38  10\R_Reviews.tsv

评论

共有 条评论