甜蜜句子
发布时间:2019-07-25 01:50:34
作者:xhs
阅读:1019
甜蜜句子:第一,DOC2VEC原理前一节总结了word2vec对单词向量的训练的细节,展示了如何用word2vec模型训练的唯一向量来表示单词。然后你可能会想,有什么方法可以把一个句子,甚至一段话作为一个向量来表示吗?答案是肯定的,有很多方法可以构建一个句子向量,今天我们将继续用word2vec来介绍doc2vec,看看doc2vec如何训练一个句子向量。许多机器学习算法需要一个固定长度的向量作为输入。当谈到短文时,最常用的定长矢量方法是一袋字。尽管词汇袋模式很受欢迎,但它有两个主要缺点。一种是词汇袋模型忽略了词序。如果两个不同的句子由同一个单词组成,但顺序不同,那么词汇袋模型将把这两个句子定义为同一个表达式。另一个原因是,单词bag模型忽略了语法,因此它可以被训练成在同一距离内“强大”、“强大”和“巴黎”,但是“强大”应该比“巴黎”更接近“强大”。doc2vec又称com.lowagie.text.paragraph vector是基于tomas-mikolov-word2vec的模型,它具有不固定句子长度、接受不同长度的句子作为训练样本、doc2vec是一种无监督的学习算法,该算法被用于predi用矢量表示不同的文档,该模型的结构克服了word-bag模型势的缺点。doc2vec模型受到word2vec模型的启发。在word2vec中预测词向量时,所预测的词具有意义。例如,上面提到的矢量“powerful”比“paris”更接近“strong”。因此,doc2vec克服了word-bag模型中没有语义的缺点。假设有一个训练样本,每个句子都是一个训练样本。由于word2vec doc2vec也有两种训练方法,一种是pv-dm(paragraphvectors的分布式内存模型),与cbow word2vec模型相似,如图1所示:图1另一个是pv dbow(段落向量的分布字袋),类似于word2vec中的跳格模型,如图2所示:图2在doc2vec中,每个句子由一个唯一的向量表示,由矩阵d的一列表示。每个单词也由一个唯一的向量表示,由矩阵w的一列表示。以pv dm模型为例,如图3所示:图3从一个句子中一次滑动一个固定长度的单词样本,将其中一个单词作为预测单词,另一个单词作为输入单词。输入层采用输入词对应的词矢量和该句对应的句矢量。将这个句子的矢量和这个样本的词矢量相加、平均或相加,形成一个新的矢量x,然后用矢量x来预测这个窗口中的预测词。doc2vec相对于word2vec的区别在于,在输入层中,添加了一个新的句子向量com.lowagie.text.paragraph vector,com.lowagie.text.paragraph vector可以看作是另一个词向量,它播放了一个记忆、单词包模型,因为每次训练只捕获一个小的句子中的词,在忽略了训练词之外的这个句子中的词,所以只训练了每个词的向量表达式,句子就是把每个词的向量表达式和起来。如上所述,word-bag模型的缺点忽略了文本的词序问题。相反,doc2vec中的段落向量弥补了这方面的不足。每一个训练也是单词在句子中的一小部分,用于训练,它在同一个句子中被多次训练共享,因此同一个句子将被重复训练,并且在每个训练中的输入包含一个段落向量。它可以被认为是句子的主要思想,并且用它来训练句子的主要思想,每次都作为输入的一部分。这样,在每个训练过程中,我们不仅训练单词,而且得到单词向量。当一个句子在一次取几个单词的过程中滑动时,共享向量作为每个练习的输入层的一部分,表达了越来越准确的主题。doc2vec中pv dm模型的具体训练过程与word2vec中cbow模型的训练模式相同,在word2vec训练词向量(i)中有详细描述,此处不再赘述。训练后,得到训练样本中的所有词向量和每个句子对应的句子向量。doc2vec如何预测新的句子矢量?实际上,在预测新的句子时,段落向量是随机初始化的,放入模型中,然后根据随机梯度下降反复迭代,得到最终稳定的句子向量。但是,在预测过程中,模型中的字向量和投影层到输出层的SoftMax权重参数不会改变,因此在连续迭代中只使用更新后的vec***tor,其他参数都是固定的,所以只需要一个lit利用预测计算段落向量的时间。两个。代码实现在python中使用gensim包调用doc2vec是方便快捷的。在这个简单的演示中,不会详细阐述gensim下的doc2vec的详细参数。本次数据为历次比赛开放旅游数据集,其中每项为游客对景区的评价。doc2vec培训段落向量的具体步骤如下:引导包:导入必要的包,其中jieba用于分割文本。导入数据集并提取讨论列(这是用户评论的内容)。将讨论列中的内容提取到分词并删除停止符。更改为doc2vec要求的输入样本格式。由于gensim中doc2vec模型所需的输入格式是固定的,输入样本是:【句子,句子序列号】,因此需要gensim中doc2vec中的taggeddocument将输入句子打包在这里。加载doc2vec模型并开始培训。在模型训练后,我们可以预测新句子的矢量。这里,doc2vec。gensim中的infer_vector()用于预测新句子。在培训样本中找出10个最相似的句子。你可以看到培训结果与新的测试句子相关。三。总结doc2vec基于word2vec。与word2vec相比,doc2vec不仅可以训练单词向量,还可以训练句子向量并预测新的句子向量。与word2vec相比,doc2vec模型的结构是不同的,它在输入层添加了一个段落向量,在同一句话的不同训练中共享权重。这样,训练向量在每个句子的几个训练中逐渐稳定,形成句子的主旨。所以我们训练了我们需要的句子向量。此时,模型的字向量和投影层对输出层的软权重是固定的,采用梯度下降法只得到段落向量。因此,在模型中迭代预测新句要比在训练中快得多。本研究使用的数据集是情绪分析,大部分样本倾向于有利,样本内容相对单一,所以培训结果倾向于在哪里玩得开心,好还是坏,等等。一些具体问题等句子的准确性还没有得到验证,目前情感分析仍然可以接受。下一次我将尝试使用新的数据集并调试参数,看看是否能获得更好的结果。如果您对深入学习和热爱TensorFlow感兴趣,请访问我们的网站:panchuang.net。甜蜜句子
版权声明:本文内容由互联网用户投稿整理编辑发布,不拥有所有权,不承担应有相关法律责任。如果文章、图片有涉嫌抄袭的内容,请发送到邮箱举报,且提供抄袭的相关证据,一但查实,会在24小时删除涉嫌侵权内容。
猜您喜欢

想知道女生是不是喜欢你,教用一个问题测试她喜欢你的方法:你可以对她说一句话:你好像长胖了一点?(看看女生是什么反应。不过如果男生问出这个问题,可能让女生觉得你情商低,就算女生喜欢你也有一定的风险性)
2024-02-20

如果男生犯了错惹女朋友生气,那就一定要想办法哄好她,因为是你错了呀。而想要哄好生气的女朋友,那你一定要认识到自己的错误,下面给大家分享惹女朋友生气检讨书1000字,希望能够帮助你哄好你的女朋友。
2024-02-19

如果女朋友说分手后做朋友是什么意思呢?如果是还爱着对方那就不应该选择分手,如果是不爱了那大家就应该彻底断了联系,真正深爱过的人是不可能在分手后做朋友的。下面就来分析女朋友的心理。
2024-02-18
脱单神器

安卓版蜜小助APP
iOS版蜜小助APP
20W+可复制撩妹话术
实战案例+话术+视频+教程
热门文章

口述:公公在梳妆台上给我数次高潮
2013-11-11
1069065

二宮琴美、東熱出操翻白眼昏死
2015-03-14
78328

那个午夜 禽兽继父将我压在身下
2014-04-08
78054

韩国美女主播”钟淑”高清视频精品合集9部 115网盘在线观看
2015-03-11
77288

店长推荐作品 EMP-001 EMPIRE Vol.1 50 波多野结衣 50连发泼溅中 2012年
2015-03-19
75774

留守女人和禽兽公公的不伦性事
2013-12-28
74937

美国男人让我一夜高潮五次
2014-04-29
69845

关牧村与前夫王星军离婚真正原因 关牧村前夫王星军照片家庭背景及个人资料
2014-08-15
64941

公公的精湛床技让我死去活来
2014-04-08
56763

我和小姨子在车上疯狂嘿咻
2013-12-28
56566