一些机器学习模型的通俗解释
LDA:
LDA模型是主题模型中的一种。我们知道,一篇文章通常包含多个隐含主题,文章中的一部分词语是为隐含主题1服务,一部分是为隐含主题2服务……LDA模型就是按照这样一个思想建模,它是一个生成模型,所谓生成模型,就是指一篇文章中的每个词都是由“以一定的概率选择了某个主题,再以一定概率选择某个词”这样的过程生成的。因此,一篇文档中某个词的概率,就可以表示为某文档下某主题的条件概率与某主题下某个词的条件概率的乘积。通过LDA模型,我们可以得到两个两个概率矩阵,一个是文档中的词与主题的概率矩阵,另一个是主题与文档的概率矩阵。
(词语,文档)=(词语,主题)X(主题,文档)
SVM:
SVM是机器学习分类模型的一种,属于判别式模型,在自然语言处理方面主要用于判定情感倾向、类别标签等。举一个例子,在做文本分类时,首先需要选择特征,将每一条文本抽象成一个向量,特征声称的方法有很多,词频、tfidf等;特征向量生成之后,我们知道,向量在空间中的表征就是一个点,那我们就可以把一系列文本用空间中的点来表示。那最开始的分类问题也就抽象成了空间点的分类问题了。接着我们只需要寻求一个最优超平面,使超平面两边的点与该超平面的距离都最远即可,进而完成了分类。
CRF:
CRF是一种典型的判别式模型,主要用来做序列标注。那什么是序列标注呢?就是给一些连续的字符串进行标签预测,目前比较成熟的应用有词性标注等。其基本原理就是通过输入的有标注的观察序列特征,输出需要预测的标签特征。
K-means:
K-means是一种聚类算法,属于无监督学习方法。基本过程是,首先随机选择k个聚类中心,然后分别计算其他数据点到这些聚类中心的距离,将其划分到离其最近的聚类中心,这样第一次就聚成了K类;然后重新计算聚类中心,按之前的方式继续聚类,一直迭代,直到稳定,得到最终的聚类结果。
LDA模型是主题模型中的一种。我们知道,一篇文章通常包含多个隐含主题,文章中的一部分词语是为隐含主题1服务,一部分是为隐含主题2服务……LDA模型就是按照这样一个思想建模,它是一个生成模型,所谓生成模型,就是指一篇文章中的每个词都是由“以一定的概率选择了某个主题,再以一定概率选择某个词”这样的过程生成的。因此,一篇文档中某个词的概率,就可以表示为某文档下某主题的条件概率与某主题下某个词的条件概率的乘积。通过LDA模型,我们可以得到两个两个概率矩阵,一个是文档中的词与主题的概率矩阵,另一个是主题与文档的概率矩阵。
(词语,文档)=(词语,主题)X(主题,文档)
SVM:
SVM是机器学习分类模型的一种,属于判别式模型,在自然语言处理方面主要用于判定情感倾向、类别标签等。举一个例子,在做文本分类时,首先需要选择特征,将每一条文本抽象成一个向量,特征声称的方法有很多,词频、tfidf等;特征向量生成之后,我们知道,向量在空间中的表征就是一个点,那我们就可以把一系列文本用空间中的点来表示。那最开始的分类问题也就抽象成了空间点的分类问题了。接着我们只需要寻求一个最优超平面,使超平面两边的点与该超平面的距离都最远即可,进而完成了分类。
CRF:
CRF是一种典型的判别式模型,主要用来做序列标注。那什么是序列标注呢?就是给一些连续的字符串进行标签预测,目前比较成熟的应用有词性标注等。其基本原理就是通过输入的有标注的观察序列特征,输出需要预测的标签特征。
K-means:
K-means是一种聚类算法,属于无监督学习方法。基本过程是,首先随机选择k个聚类中心,然后分别计算其他数据点到这些聚类中心的距离,将其划分到离其最近的聚类中心,这样第一次就聚成了K类;然后重新计算聚类中心,按之前的方式继续聚类,一直迭代,直到稳定,得到最终的聚类结果。
还没人转发这篇日记