• 大小: 15KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: Python
  • 标签: chi  ig  mi  python  

资源简介

使用python,计算两类文档的chi、ig、mi值。其中文档类型比例为1:1,可以自己调整。

资源截图

代码片段和文件信息

import numpy as np
import jieba
import csv
import os
import sys
import re

#用于获得年报的内容和分类。其中wordlist为[[年报一分词][年报二分词]...],classlist为[[年报一类别][年报二类别]...]
def get_content_annual_1_1():
    wordList=[]
    classList=[]
    with open(“ST信息预处理.csv“encoding=‘utf-8-sig‘) as csvfile:
        readCSV = csv.reader(csvfile)
        for row in readCSV:
            stName=row[0][:-3]+‘-‘+row[1]
            nomalName_1 = ‘‘
            ifExist = True
            i=2
            while ifExist:
                if os.path.exists(‘F:/作业/srp/chenyiyun/词语分析/年报/‘
                                  +row[i][:-3]+‘-‘+row[1]+‘.txt‘):
                    nomalName_1=row[i][:-3]+‘-‘+row[1]
                    ifExist = False
                else:
                    print(row[0])
            

评论

共有 条评论