宾州树库和CTB的Python预处理脚本-白红宇

宾州树库和CTB的Python预处理脚本

阅读量：5938 次

发布时间：2019-06-19

本文共 357 字，大约阅读时间需要 1 分钟。

本文由同步，最新版本请查看原文：

在写句法分析器之前，通常需要将PTB和CTB预处理为：一行一个句子，单文件；符合规范比例的训练集/开发集/测试集；去掉CTB中的xml标签，只保留句子，编码转换。这些步骤很麻烦，因为bracketed的树形结构需要先解析才能转为一行，CTB的组织结构、文件格式与PTB的不同等等。本以为如此古老的数据集，肯定有开源项目做这些脏活累活的。不料并没有，所以我写了几个脚本，自动完成这些预处理，开源在GitHub上。其中，数据集拆分具体是按照Chen and Manning (2014), Dyer et al. (...

继续阅读： »

原文链接：

感谢阅读本文，欢迎或访问获取更多内容

转载于:https://my.oschina.net/hankcs/blog/1560824

你可能感兴趣的文章

NetworkStream.write只能使用一次，后面再使用无效