torchtext与glove
实践语义与图卷积的时候,碰到的问题,做一个记录。
一、glove仓库:https://github.com/stanfordnlp/GloVe 因为我们只需要预训练词库。下载之(不同的文件只需要改不同的后缀即可),一般情况下选择300维的embedding
1:glov.6B.zip:
https://apache-mxnet.s3.cn-north-1.amazonaws.com.cn/gluon/embeddings/glove/glove.6B.zip
2:glove.42B.300d.zip:
https://apache-mxnet.s3.cn-north-1.amazonaws.com.cn/gluon/embeddings/glove/glove.42B.300d.zip
二、pytorch提供了text来处理词向量,根据其版本兼容度选择对应的版本。我的pytorch版本是1.4,因此选择了0.4的torchtext
git clone https://github.com/pytorch/text torchtext
git checkout 0.4.0
git submodule update --init --recursive
三、使用方法,纯粹摸索出来的。
import torch
import torchtext
glove_42b_300d = torchtext.vocab.GloVe(name='42B',cache='./glove/')
glove_42b_300d.get_vecs_by_tokens("aeroplane")