《Deep Learning 实战之word2vec》 邓澍军、陆光明、夏龙 网易有道 2014.02.27

Word2vec是一个将词转化为向量的工具,不是基于NLP的。 Doc2vec

输入层是已经切分好的单词。

统计语言模型

  • 上下文无关模型
  • n-gram模型
  • n-pos模型
  • 基于决策树的模型
  • 最大熵模型
  • 自适应语言模型

词向量

one-hot representation

distributed representation

余弦距离与欧式距离。适用于各自不同的数据分析模型。

CBOW(Continuous Bag of Words Model) 是一种根据已知上下文的词语预测

Skip-gram 只是逆转了CBOW的因果关系,即已知当前词语,预测上下文。

训练方法:

Hierachical softmax

Negative Sampling

CBOW+HSM

results matching ""

    No results matching ""