在写句法分析器之前,通常需要将PTB和CTB预处理为:一行一个句子,单文件;符合规范比例的训练集/开发集/测试集;去掉CTB中的xml标签,只保留句子,编码转换。这些步骤很麻烦,因为bracketed的树形结构需要先解析才能转为一行,CTB的组织结构、文件格式与PTB的不同等等。本以为如此古老的数据集,肯定有开源项目做这些脏活累活的。不料并没有,所以我写了几个脚本,自动完成这些预处理,开源在GitHub上。其中,数据集拆分具体是按照Chen and Manning (2014), Dyer et al. (...
本文由同步,最新版本请查看原文:
继续阅读: »
原文链接:
感谢阅读本文,欢迎 或访问获取更多内容