腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

释放双眼,带上耳机,听听看~!

腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。

腾讯AI Lab开源大规模高质量中文词向量数据简介:https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载:

数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载)

根目录:

  • 5000-small.txt 这个有5000词,可以下下来玩玩

  • 45000-small.txt 这个有4.5w的词,已经能解决很多问题了

  • 70000-small.txt 7w词  133MB

  • 100000-small.txt 10w词 190MB

  • 500000-small.txt 50w词 953MB

  • 1000000-small.txt 100w词 1.9GB

  • 2000000-small.txt 200w词 3.8GB

  • Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量(6.31g),解压后16g

code文件夹

  • doubanmovieshortcomments.zip豆瓣评论数据149M

  • 分词文件(如:8000000-dict.txt等)

  • Use Tencent Word Embeddings with douban datasets.ipynb(测试代码)

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余

给TA打赏
共{{data.count}}人
人已打赏
站长资源

XP模块--微信密友--Chihiro_5.9.1-支持微信8.0.21

2019-11-8 0:00:00

站长资源

K20 Pro解锁全频段教程

2020-4-13 14:22:13

免责声明

本站资源大多来自网络,如有侵犯你的权益请联系管理员,邮箱momeis6@qq.com 根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。 本站为个人博客非盈利性站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途,网站会员捐赠是您喜欢本站而产生的赞助支持行为,仅为维持服务器的开支与维护,全凭自愿无任何强求。本站部份代码及教程来源于互联网,仅供网友学习交流,若您喜欢本文可附上原文链接随意转载。


如果遇到付费才可观看的文章,建议升级终身VIP。全站所有资源任意下免费看”。本站资源大部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索