• 大小: 4.6MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-13
  • 语言: 其他
  • 标签:

资源简介

1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemmatized前的复选框,则可以检索实际输入的检索项(比如搜goes,只能得到含goes的平行句对)。 7、 软件还支持对应语言文本中包含或不含(exclude)某词项的检索。如检索education,以及结果中包含(或不含)“教育”的句对。 8、 结果可存为tab符分隔的文本文件,便于后续分析。

资源截图

代码片段和文件信息

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件     1459200  2014-02-24 16:53  BFSU ParaConc 1.2.2.exe
     文件       31744  2012-12-10 23:32  BFSU_ParaConc_Readme.doc
     目录           0  2014-02-24 19:16  dic\
     文件          31  2012-12-02 01:51  dic\EN-ZH.txt
     文件          18  2012-12-01 18:42  dic\ZH-EN.txt
     目录           0  2014-02-24 19:16  sample_para_texts\
     文件    11124740  2012-12-10 23:36  sample_para_texts\26594.EN.txt
     文件     3751813  2012-12-07 00:42  sample_para_texts\26594.ZH.txt
     文件       27648  2012-12-04 00:39  sample_para_texts\UN_Corpora_Readme.doc
     文件     2403473  2012-11-29 18:59  sample_para_texts\UNcorpora.EN.txt
     文件     1209643  2012-11-29 19:31  sample_para_texts\UNcorpora.ZH.txt
     目录           0  2014-02-24 19:16  sys\
     文件      232960  2012-11-02 20:23  sys\MyDLL.dll
     文件           0  2012-04-04 10:09  sys\blank.htm
     文件        1129  2012-12-04 23:02  sys\result.css
     文件         629  2012-12-04 22:16  sys\result.tpl

评论

共有 条评论

相关资源