4)第156章 学术工具人get√_穿越黑龙江1940
字体:      护眼 关灯
上一章 目录 下一章
  

  就像欧拉公式一般。

  正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。

  如果林灰想表达的意思不是对高维数据做手脚。

  而是说对传统的向量空间模型做文章?

  将高维向量空间模型转化为维度较低的空间向量模型?

  这种思路倒是不错。

  但这种尝试先前并不是没人做过。

  很早之前就有人进行了尝试。

  早在上世纪末期就有人提出了潜在语义分析模型。

  潜在语义分析模型是基于空间向量模型(VSM)而提出的。

  潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

  通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

  在得到低维的文本向量和单词向量之后。

  再用余弦相似度等度量方式来计算文本间的语义相似度。

  潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。

  虽然这种思路不错,但这种方法并没有普适性。

  这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

  这种做法使得计算复杂度增高,并且可移植性较差。

  在这种方法提出来之后。

  并不是没人尝试对这种方法进行过改进。

  同样是上世纪末。

  有研究人员提出了概率潜在语义分析模型。

  这种模型是基于概率,而不是基于奇异值分解。

  这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

  而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。

  以此用来预测文本空间向量中的观察数据。

  在这种概率潜在语义分析模型中,多义词被归入不同的主题下,而同义词被归入同一主题下。

  这样可以避免同义词和多义词对文本相似度计算的影响。

  然而,概率潜在语义分析模型的参数随着文档数量的增加而线性增长。

  很容易出现过拟合和泛化不良。

  这种情况很大程度又是因为维度爆炸。

  因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。

  一个为了避免维度爆炸而提出的模型却出现了维度爆炸。

  多少有点悲剧。

  事实上,并不是只有上述两个模型提出来。

  这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。

  但这些模型要么是南辕北辙,不利于降维。

  要么是在降维的同时又带来了新的问题。

  总之,这些模型都有各种行不通的地方。

  尽管伊芙·卡莉相信林灰是个天才。

  但伊芙·卡莉觉得林灰也很难在前人无数次尝试的情况下找到一种全新的能够规避维度爆炸的低维模型。

  伊芙·卡莉考虑了很久也没想通林灰究竟表

  请收藏:https://m.fk77.cc

(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)

上一章 目录 下一章