期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
大语言模型安全性:分类、评估、归因、缓解、展望 被引量:6
1
作者 黄河燕 李思霖 +7 位作者 兰天伟 邱昱力 柳泽明 姚嘉树 曾理 单赢宇 施晓明 郭宇航 《智能系统学报》 北大核心 2025年第1期2-32,共31页
大语言模型能够在多个领域及任务上给出与人类水平相当的解答,并且在未经训练的领域和任务上展现了丰富的涌现能力。然而,目前基于大语言模型的人工智能系统存在许多安全性隐患,例如大语言模型系统容易受到难以被察觉的攻击,模型生成的... 大语言模型能够在多个领域及任务上给出与人类水平相当的解答,并且在未经训练的领域和任务上展现了丰富的涌现能力。然而,目前基于大语言模型的人工智能系统存在许多安全性隐患,例如大语言模型系统容易受到难以被察觉的攻击,模型生成的内容存在违法、泄密、仇恨、偏见、错误等问题。并且在实际应用中,大语言模型可能被滥用,生成的内容可能引起国家、人群和领域等多个层面的困扰。本文旨在深入探讨大语言模型面临的安全性风险并进行分类,回顾现有的评估方法,研究安全性风险背后的因果机制,并总结现有的解决措施。具体而言,本文明确了大语言模型面临的10种安全性风险,并将其归类为模型自身安全性风险与生成内容的安全性风险两个方面,并对每种风险进行了详细的分析和讲解。此外,本文还从生命周期和危害程度两个角度对大语言模型的安全风险进行了系统化的分析,并介绍了现有的大语言模型安全风险评估方法、大语言模型安全风险的出现原因以及相应的缓解措施。大语言模型的安全风险是亟待解决的重要问题。 展开更多
关键词 大语言模型 模型自身安全性 生成内容安全性 安全性分类 安全性风险评估 安全性风险归因 安全性风险缓解措施 安全性研究展望
在线阅读 下载PDF
Web查询日志研究综述 被引量:9
2
作者 付博 赵世奇 刘挺 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1800-1808,共9页
本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的... 本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的问题和挑战.重在对基于查询日志研究的主流方法和前沿进展进行概括、比较和分析,以期对后续研究有所助益. 展开更多
关键词 查询日志分析 查询日志挖掘 WEB搜索 信息抽取
在线阅读 下载PDF
基于感知器的中文分词增量训练方法研究 被引量:4
3
作者 韩冰 刘一佳 +1 位作者 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2015年第5期49-54,共6页
该文提出了一种基于感知器的中文分词增量训练方法。该方法可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。实验表明,增量训练可以有效提升领域适应性... 该文提出了一种基于感知器的中文分词增量训练方法。该方法可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。实验表明,增量训练可以有效提升领域适应性,达到与传统数据混合相类似的效果。同时该文方法模型占用空间小,训练时间短,可以快速训练获得目标领域的模型。 展开更多
关键词 中文分词 领域适应 增量训练
在线阅读 下载PDF
统计与词典相结合的领域自适应中文分词 被引量:46
4
作者 张梅山 邓知龙 +1 位作者 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2012年第2期8-12,共5页
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)... 基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。 展开更多
关键词 中文分词 CRF 领域自适应
在线阅读 下载PDF
基于序列标注的中文分词、词性标注模型比较分析 被引量:12
5
作者 刘一佳 车万翔 +1 位作者 刘挺 张梅山 《中文信息学报》 CSCD 北大核心 2013年第4期30-36,共7页
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数... 该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。 展开更多
关键词 中文分词 词性标注 Stacked LEARNING
在线阅读 下载PDF
基于主动学习的中文依存句法分析 被引量:10
6
作者 车万翔 张梅山 刘挺 《中文信息学报》 CSCD 北大核心 2012年第2期18-22,共5页
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句... 目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。 展开更多
关键词 主动学习 依存句法 不确定性度量 委员会投票
在线阅读 下载PDF
面向搜索引擎的实体推荐综述 被引量:16
7
作者 黄际洲 孙雅铭 +1 位作者 王海峰 刘挺 《计算机学报》 EI CSCD 北大核心 2019年第7期1467-1494,共28页
面向搜索引擎的实体推荐任务旨在为用户输入的搜索查询推荐出相关实体,从而帮助用户发现感兴趣的实体,提升用户的搜索体验.此外,为了帮助用户更好地理解实体推荐结果,还需要为被推荐的实体集合以及每一个被推荐实体生成恰当且合理的推... 面向搜索引擎的实体推荐任务旨在为用户输入的搜索查询推荐出相关实体,从而帮助用户发现感兴趣的实体,提升用户的搜索体验.此外,为了帮助用户更好地理解实体推荐结果,还需要为被推荐的实体集合以及每一个被推荐实体生成恰当且合理的推荐理由.实体推荐能够帮助用户便捷地获得与其搜索需求相关的信息,有助于提升用户的信息发现体验,因此已成为现代搜索引擎中必不可少的功能之一.与传统领域的推荐任务相比较,面向搜索引擎的实体推荐面临更多的挑战,例如搜索查询中实体指称的歧义性以及实体推荐的领域无关性等.针对搜索引擎实体推荐任务的特点与存在的挑战,我们认为构建一个完备的实体推荐系统需要解决如下三个子研究任务:实体链接、实体推荐与推荐理由生成.实体链接任务的目标是将搜索查询中的实体指称消除歧义并链接到知识库中无歧义的实体上,以获得与搜索查询对应的查询实体.实体推荐任务的目标是获取与查询实体相关的实体集合并对其进行排序.为了提供更准确的推荐结果,往往还需要进一步利用历史搜索信息获取用户对实体的偏好并对当前查询进行更好地理解.推荐理由生成任务的目标是为被推荐的实体集合以及每一个被推荐实体生成推荐理由,其中集合推荐理由解释的是该集合中的被推荐实体与查询实体的关系,实体推荐理由则是单个实体被推荐的理由.本文首先介绍面向搜索引擎的实体推荐任务的研究背景与意义、存在的挑战以及各子任务,然后详细介绍每一个子任务存在的技术挑战、研究现状以及解决方法,最后对未来研究方向进行展望并对本文进行总结。 展开更多
关键词 搜索引擎 实体推荐 实体链接 推荐理由
在线阅读 下载PDF
基于众包的词汇联想网络的获取和分析 被引量:6
8
作者 丁宇 车万翔 +1 位作者 刘挺 张梅山 《中文信息学报》 CSCD 北大核心 2013年第3期100-106,共7页
词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典... 词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点:(1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。 展开更多
关键词 众包 语义相关性词典 词汇联想网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部