0%

1. 介绍

有这么一句话,长文本用CBOW,短文本用lstmCBOW就是Word2Vec的一种训练方法。
doc2vec和topic model是一个层次的东西。

首先在word2vec之前,做NLP的都是使用BOW或者n-gram。用BOW会损失上下文信息,用n-gram导致数据维度太高和稀疏问题。而doc2vec和word2vec是无监督学习,完全可以当做pre-train。

Read more »

1. 介绍

Gensim是一个python的包可以自动提取文档语义主题。主要用来对于原始未标记文档进行处理。包括Latent Semantic Analysis, Latent Dirichlet Allocation, Random Projections。这些算法都是unsupervised意味着不需要人工输入。

一旦概率模式被发现,原始文档可以有效地进行语义表示,并且可以进行主题查询。

本文主要参考Gensim官网教程。

Read more »

虽然之前已经看过一遍这本书,但一直没有留下笔记,很多东西又有遗忘,所以记下一下重要的东西。

Read more »

1. 介绍

Latent Dirichlet Allocation(LDA)。是在文本建模中很著名的模型,可以用于浅层语义分析,在文本语义分析中是一个很有用的模型。这个模型涉及数学知识包括Gamma函数,Dirichlet分布,Dirichlet-Multinomial共轭,Gibbs Sampling,Variantional Inference(变分推理)

Read more »