腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用

站长资源
下载量：0【次】
20年2月14日
编辑
最后更新于：2022-08-14 14:58:21

墨梅管理员

释放双眼，带上耳机，听听看~！

腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据，该数据包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题，就是词向量过大，约16g，用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量，为方便用户，本文搜集了腾讯原版词向量精简版本，并提供各种大小版本的词向量下载。

腾讯AI Lab开源大规模高质量中文词向量数据简介：https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载：

数据下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz （6.31g，解压约16g，文末提供百度云下载）

根目录：

5000-small.txt 这个有5000词，可以下下来玩玩
45000-small.txt 这个有4.5w的词，已经能解决很多问题了
70000-small.txt 7w词 133MB
100000-small.txt 10w词 190MB
500000-small.txt 50w词 953MB
1000000-small.txt 100w词 1.9GB
2000000-small.txt 200w词 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量（6.31g），解压后16g

code文件夹

doubanmovieshortcomments.zip豆瓣评论数据149M
分词文件（如：8000000-dict.txt等）
Use Tencent Word Embeddings with douban datasets.ipynb（测试代码）

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示

本站网络名称： 墨梅博客

本文章永久网址： https://momeis.net/post-65229.html

网站侵权说明：本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长Email：momeis6@qq.com 删除处理。
1 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
2 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
3 本站资源大多存储在云盘，如发现链接失效，请联系我们第一时间更新。