《Deep Learning 实战之word2vec》 邓澍军、陆光明、夏龙 网易有道 2014.02.27
Word2vec是一个将词转化为向量的工具,不是基于NLP的。 Doc2vec
输入层是已经切分好的单词。
统计语言模型
- 上下文无关模型
- n-gram模型
- n-pos模型
- 基于决策树的模型
- 最大熵模型
- 自适应语言模型
词向量
one-hot representation
distributed representation
余弦距离与欧式距离。适用于各自不同的数据分析模型。
CBOW(Continuous Bag of Words Model) 是一种根据已知上下文的词语预测
Skip-gram 只是逆转了CBOW的因果关系,即已知当前词语,预测上下文。
训练方法:
Hierachical softmax
Negative Sampling
CBOW+HSM