腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。
腾讯AI Lab开源大规模高质量中文词向量数据简介:https://cloud.tencent.com/developer/article/1356164
原版腾讯词向量下载:
数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载)
根目录:
-
5000-small.txt 这个有5000词,可以下下来玩玩
-
45000-small.txt 这个有4.5w的词,已经能解决很多问题了
-
70000-small.txt 7w词 133MB
-
100000-small.txt 10w词 190MB
-
500000-small.txt 50w词 953MB
-
1000000-small.txt 100w词 1.9GB
-
2000000-small.txt 200w词 3.8GB
-
Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量(6.31g),解压后16g
code文件夹
-
doubanmovieshortcomments.zip豆瓣评论数据149M
-
分词文件(如:8000000-dict.txt等)
-
Use Tencent Word Embeddings with douban datasets.ipynb(测试代码)