为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维...为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。展开更多
作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩...作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩展,以全面揭示学科领域研究主题在宏观、微观等层面上的语义演化过程具有现实意义。本文将学科领域特征关键词视为网络顶点,通过全局词嵌入模型(global vectors for word representation,GloVe)获取特征关键词的向量表示,并将对应词向量间的归一化余弦相似度设定为网络连边权重,构建全连接、无向的词向量网络。进一步地,本文详细分析了学科领域词向量网络的作用与特征,提出基于词向量网络的科研主题语义漂移分析框架,并就其表征的语义关联关系与共词网络中的共现关系进行比较分析。研究发现,本文提出的学科领域词向量网络作为一类特殊的知识网络,是特征关键词的共词网络在语义超空间上的映射,具有明显的社区结构和时序演化分析价值。与共词网络方法相比,学科领域词向量网络在表征学科领域的关键概念上具有一致性,并在反映学科领域知识结构时更具稳定性和全面性,能够精细化揭示科研主题在微观层面上产生的语义漂移等更细粒度的演化过程。展开更多
最近混淆网络在融合多个机器翻译结果中展示很好的性能.然而为了克服在不同的翻译系统中不同的词序,假设对齐在混淆网络的构建上仍然是一个重要的问题.但以往的对齐方法都没有考虑到语义信息.本文为了更好地改进系统融合的性能,提出了...最近混淆网络在融合多个机器翻译结果中展示很好的性能.然而为了克服在不同的翻译系统中不同的词序,假设对齐在混淆网络的构建上仍然是一个重要的问题.但以往的对齐方法都没有考虑到语义信息.本文为了更好地改进系统融合的性能,提出了用词义消歧(Word sense disambiguation,WSD)来指导混淆网络中的对齐.同时骨架翻译的选择也是通过计算句子间的相似度来获得的,句子的相似性计算使用了二分图的最大匹配算法.为了使得基于WordNet词义消歧方法融入到系统中,本文将翻译错误率(Translation error rate,TER)算法进行了改进,实验结果显示本方法的性能好于经典的TER算法的性能.展开更多
文摘作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩展,以全面揭示学科领域研究主题在宏观、微观等层面上的语义演化过程具有现实意义。本文将学科领域特征关键词视为网络顶点,通过全局词嵌入模型(global vectors for word representation,GloVe)获取特征关键词的向量表示,并将对应词向量间的归一化余弦相似度设定为网络连边权重,构建全连接、无向的词向量网络。进一步地,本文详细分析了学科领域词向量网络的作用与特征,提出基于词向量网络的科研主题语义漂移分析框架,并就其表征的语义关联关系与共词网络中的共现关系进行比较分析。研究发现,本文提出的学科领域词向量网络作为一类特殊的知识网络,是特征关键词的共词网络在语义超空间上的映射,具有明显的社区结构和时序演化分析价值。与共词网络方法相比,学科领域词向量网络在表征学科领域的关键概念上具有一致性,并在反映学科领域知识结构时更具稳定性和全面性,能够精细化揭示科研主题在微观层面上产生的语义漂移等更细粒度的演化过程。
文摘最近混淆网络在融合多个机器翻译结果中展示很好的性能.然而为了克服在不同的翻译系统中不同的词序,假设对齐在混淆网络的构建上仍然是一个重要的问题.但以往的对齐方法都没有考虑到语义信息.本文为了更好地改进系统融合的性能,提出了用词义消歧(Word sense disambiguation,WSD)来指导混淆网络中的对齐.同时骨架翻译的选择也是通过计算句子间的相似度来获得的,句子的相似性计算使用了二分图的最大匹配算法.为了使得基于WordNet词义消歧方法融入到系统中,本文将翻译错误率(Translation error rate,TER)算法进行了改进,实验结果显示本方法的性能好于经典的TER算法的性能.