资源简介
1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。
2、 汉语文本可不进行分词处理。
3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。
4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。
5、 软件支持正则表达式检索。
6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemmatized前的复选框,则可以检索实际输入的检索项(比如搜goes,只能得到含goes的平行句对)。
7、 软件还支持对应语言文本中包含或不含(exclude)某词项的检索。如检索education,以及结果中包含(或不含)“教育”的句对。
8、 结果可存为tab符分隔的文本文件,便于后续分析。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1459200 2014-02-24 16:53 BFSU ParaConc 1.2.2.exe
文件 31744 2012-12-10 23:32 BFSU_ParaConc_Readme.doc
目录 0 2014-02-24 19:16 dic\
文件 31 2012-12-02 01:51 dic\EN-ZH.txt
文件 18 2012-12-01 18:42 dic\ZH-EN.txt
目录 0 2014-02-24 19:16 sample_para_texts\
文件 11124740 2012-12-10 23:36 sample_para_texts\26594.EN.txt
文件 3751813 2012-12-07 00:42 sample_para_texts\26594.ZH.txt
文件 27648 2012-12-04 00:39 sample_para_texts\UN_Corpora_Readme.doc
文件 2403473 2012-11-29 18:59 sample_para_texts\UNcorpora.EN.txt
文件 1209643 2012-11-29 19:31 sample_para_texts\UNcorpora.ZH.txt
目录 0 2014-02-24 19:16 sys\
文件 232960 2012-11-02 20:23 sys\MyDLL.dll
文件 0 2012-04-04 10:09 sys\blank.htm
文件 1129 2012-12-04 23:02 sys\result.css
文件 629 2012-12-04 22:16 sys\result.tpl
----------- --------- ---------- ----- ----
文件 1459200 2014-02-24 16:53 BFSU ParaConc 1.2.2.exe
文件 31744 2012-12-10 23:32 BFSU_ParaConc_Readme.doc
目录 0 2014-02-24 19:16 dic\
文件 31 2012-12-02 01:51 dic\EN-ZH.txt
文件 18 2012-12-01 18:42 dic\ZH-EN.txt
目录 0 2014-02-24 19:16 sample_para_texts\
文件 11124740 2012-12-10 23:36 sample_para_texts\26594.EN.txt
文件 3751813 2012-12-07 00:42 sample_para_texts\26594.ZH.txt
文件 27648 2012-12-04 00:39 sample_para_texts\UN_Corpora_Readme.doc
文件 2403473 2012-11-29 18:59 sample_para_texts\UNcorpora.EN.txt
文件 1209643 2012-11-29 19:31 sample_para_texts\UNcorpora.ZH.txt
目录 0 2014-02-24 19:16 sys\
文件 232960 2012-11-02 20:23 sys\MyDLL.dll
文件 0 2012-04-04 10:09 sys\blank.htm
文件 1129 2012-12-04 23:02 sys\result.css
文件 629 2012-12-04 22:16 sys\result.tpl
评论
共有 条评论