博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
宾州树库和CTB的Python预处理脚本
阅读量:5938 次
发布时间:2019-06-19

本文共 357 字,大约阅读时间需要 1 分钟。

  hot3.png

04154540_GdtZ.jpg 本文由同步,最新版本请查看原文:
宾州树库和CTB的Python预处理脚本
在写句法分析器之前,通常需要将PTB和CTB预处理为:一行一个句子,单文件;符合规范比例的训练集/开发集/测试集;去掉CTB中的xml标签,只保留句子,编码转换。这些步骤很麻烦,因为bracketed的树形结构需要先解析才能转为一行,CTB的组织结构、文件格式与PTB的不同等等。本以为如此古老的数据集,肯定有开源项目做这些脏活累活的。不料并没有,所以我写了几个脚本,自动完成这些预处理,开源在GitHub上。其中,数据集拆分具体是按照Chen and Manning (2014), Dyer et al. (...

继续阅读: »

原文链接

感谢阅读本文,欢迎 或访问获取更多内容

转载于:https://my.oschina.net/hankcs/blog/1560824

你可能感兴趣的文章
NetworkStream.write只能使用一次,后面再使用无效
查看>>
Android Studio离线打包5+SDK
查看>>
oracle进行字符串拆分并组成数组
查看>>
100多个基础常用JS函数和语法集合大全
查看>>
Java8 lambda表达式10个示例
查看>>
innerHTML outerHTML innerText
查看>>
kafka安装教程
查看>>
window.postMessage实现网页间通信
查看>>
go语言基础
查看>>
SQL Server 2016新特性:Query Store
查看>>
每日问题记录20171117
查看>>
【spring boot】10.spring boot下的单元测试
查看>>
基本算法系列15天速成
查看>>
IntelliJ IDEA(2017)安装和破解
查看>>
ubuntu16.04忘了root密码
查看>>
《Unix&Linux大学教程》学习笔记一:历史与常识
查看>>
java的list类
查看>>
Android setOnPageChangeListener 过时了怎么办?
查看>>
途牛订单的服务化演进
查看>>
npm太慢, 淘宝npm镜像使用方法
查看>>