期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
印地语自然语言处理研究进展
1
作者 王连喜 林楠铠 +1 位作者 蒋盛益 邓致妍 《中文信息学报》 CSCD 北大核心 2023年第5期53-69,共17页
与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印... 与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印地语自然语言处理研究在基础资源建设、词性标注、命名实体识别、句法分析、词义消歧、信息检索、机器翻译、情感分析以及自动摘要等方面的研究进展,最后提出了该领域研究可能面临的问题及挑战,并展望未来发展趋势。 展开更多
关键词 印地语 自然语言处理 低资源语言
在线阅读 下载PDF
“一带一路”:研究热点与新兴主题发展分析 被引量:7
2
作者 王连喜 蒋盛益 +1 位作者 李霞 甘穗福 《情报杂志》 CSSCI 北大核心 2019年第2期71-77,共7页
[目的/意义]"一带一路"倡议自2013年被习近平主席提出以来就得到了学者们的广泛关注,明晰该领域的研究热点和新兴主题发展对于研究人员了解和把握研究现状及发展趋势具有非常重要的意义。[方法/过程]选取CSSCI数据库中以"... [目的/意义]"一带一路"倡议自2013年被习近平主席提出以来就得到了学者们的广泛关注,明晰该领域的研究热点和新兴主题发展对于研究人员了解和把握研究现状及发展趋势具有非常重要的意义。[方法/过程]选取CSSCI数据库中以"一带一路"为主题的期刊论文为研究对象,以共词聚类方法和新兴主题识别方法为分析手段,对该领域的研究热点和新兴主题发展进行分析。[结果/结论]虽然"一带一路"研究在近几年出现了许多新兴关键词和新兴主题,但目前已形成了7个比较稳定的热点研究领域,并且在各个热点领域的研究中不仅从宏观层面考虑了区域与国别研究、实施对策等方面的问题,还从微观层面考虑了不同领域中的具体问题。此外,还对"一带一路"研究的未来发展方向进行了探讨。 展开更多
关键词 一带一路 新兴主题 共词聚类 研究热点
在线阅读 下载PDF
基于多目标蚁群算法的主题爬虫策略 被引量:9
3
作者 东熠 刘景发 刘文杰 《计算机工程》 CAS CSCD 北大核心 2020年第9期274-282,共9页
基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优。针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法。构建主题爬虫领域本体和主题向量,以链接的锚文本相... 基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优。针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法。构建主题爬虫领域本体和主题向量,以链接的锚文本相关度、链接所在网页主题相关度以及链接指向网页主题相关度为指标判断链接是否与主题相关,并建立链接主题相关度的多目标优化模型,将基于多目标优化的蚁群算法引入主题爬虫的链接选择过程,采用非支配排序和最近最远候选解法选取Pareto最优链接,以引导主题爬虫搜索方向并提升全局搜索性能。实验结果表明,与FCSA、WSE等传统主题爬虫方法相比,该方法爬准率更高,并且能更快抓取到主题相关度高的网页。 展开更多
关键词 主题爬虫 蚁群算法 多目标优化 暴雨灾害 本体构建
在线阅读 下载PDF
汉语-印尼语平行语料自动对齐方法研究 被引量:6
4
作者 郑铿涛 林楠铠 +2 位作者 付颖雯 王连喜 蒋盛益 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第1期89-97,共9页
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对... 双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。 展开更多
关键词 平行语料 语料库构建 可比语料 段落对齐 句对齐
在线阅读 下载PDF
东盟涉华舆情识别及特征分布研究--以主流英汉媒体为分析对象 被引量:1
5
作者 王连喜 向杰益 +2 位作者 黄锡轩 蒋盛益 赵瑞 《情报杂志》 CSSCI 北大核心 2022年第8期94-101,共8页
[研究目的]高效识别和挖掘海外媒体的涉华新闻舆情及其特征分布,对于我国全方位、多角度了解国际社会的对华关注点和国际舆情场变化具有重要意义。[研究方法]以“一带一路”倡议开局前五年的东盟主流英汉媒体新闻为分析对象,首先在确定... [研究目的]高效识别和挖掘海外媒体的涉华新闻舆情及其特征分布,对于我国全方位、多角度了解国际社会的对华关注点和国际舆情场变化具有重要意义。[研究方法]以“一带一路”倡议开局前五年的东盟主流英汉媒体新闻为分析对象,首先在确定新闻媒体列表并进行定制化采集的基础上,通过人工标注形成英汉训练数据集,然后在标注语料上比较10种机器学习模型的性能,随后选择效果最佳的基于BERT的分类算法对采集的语料进行涉华识别,最后对涉华新闻进行定量统计和多角度的舆情分析。[研究结论]汉语媒体是东盟涉华舆情的主要阵地,英汉媒体的重点关注对象分别以政治类和经济类主题为主,但不同国家的对华关注点不尽相同且会产生变迁。 展开更多
关键词 网络舆情 涉华舆情 涉华媒体 涉华新闻识别 BERT 东盟
在线阅读 下载PDF
网络舆情领域相关概念分布及其关系辨析 被引量:31
6
作者 王连喜 《现代情报》 CSSCI 2019年第6期132-141,共10页
[目的/意义]当前学术界对网络舆情的概念内涵描述缺少规范、统一、明确的界定,对该领域的相关概念及其关系进行辨析有利于助推后续研究的发展。[方法/过程]在深入调查和比较现有文献的基础上,从网络舆情领域涉及的研究对象和概念分布入... [目的/意义]当前学术界对网络舆情的概念内涵描述缺少规范、统一、明确的界定,对该领域的相关概念及其关系进行辨析有利于助推后续研究的发展。[方法/过程]在深入调查和比较现有文献的基础上,从网络舆情领域涉及的研究对象和概念分布入手,重点对网络舆情的研究对象、术语表达及其相互关系进行比较和辨析,并在综合当前研究环境下对网络舆情内涵表述进行广义性界定,同时对图书情报领域网络舆情研究的发展启示进行了分析。[结果/结论]有助于明晰网络舆情在不同学科或领域中边界与范畴。 展开更多
关键词 网络舆情 舆情 研究对象 概念分布 关系辨析
在线阅读 下载PDF
基于局部和全局语义融合的跨语言句子语义相似度计算模型 被引量:14
7
作者 李霞 刘承标 +1 位作者 章友豪 蒋盛益 《中文信息学报》 CSCD 北大核心 2019年第6期18-26,共9页
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获... 跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。 展开更多
关键词 跨语言文本句子语义相似度 自注意力机制 门控卷积神经网络
在线阅读 下载PDF
融合图像注意力的多模态机器翻译模型 被引量:5
8
作者 李霞 马骏腾 覃世豪 《中文信息学报》 CSCD 北大核心 2020年第7期68-78,共11页
已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作... 已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注意力权重中,从而进一步增强解码端隐含状态与源语言文本的对齐信息。在多模态机器翻译数据集Multi30k上英语—德语翻译对以及人工标注的印尼语—汉语翻译对上的实验结果表明,该文提出的模型相比已有的基于循环神经网络的多模态机器翻译模型效果具有较好的提升,证明了该模型的有效性。 展开更多
关键词 多模态机器翻译 图像注意力 图像全局语义 图像局部语义
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部