期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
一种在电子出版中融合固定版面与流式信息的方法 被引量:3
1
作者 仇睿恒 汤帜 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2276-2281,共6页
随着硬件条件的提高和网络技术的发展,特别移动终端的快速发展,电子文档的使用环境日趋多样化,但相关技术却面临着更大的挑战.这是因为固定版面与流式信息之间存在本质的矛盾,难以进行融合、协同工作.虽然人们尝试了一些方法来解决这个... 随着硬件条件的提高和网络技术的发展,特别移动终端的快速发展,电子文档的使用环境日趋多样化,但相关技术却面临着更大的挑战.这是因为固定版面与流式信息之间存在本质的矛盾,难以进行融合、协同工作.虽然人们尝试了一些方法来解决这个问题,但是效果都不甚理想.我们在研究现有技术的基础上,提出了一种新的基于版面块的文档模型,并赋予其固定版面的特性与必要的流式信息,以适应多样化的终端环境,能够解决电子文档出版中的固定版面与流式信息融合的问题.实现效果说明,本文提出的文档模型在实际使用中具有很大的潜力. 展开更多
关键词 文档处理 固定版式 流式文档 电子出版
在线阅读 下载PDF
大规模RDF图数据上高效率分布式查询处理 被引量:11
2
作者 王鑫 徐强 +2 位作者 柴乐乐 杨雅君 柴云鹏 《软件学报》 EI CSCD 北大核心 2019年第3期498-514,共17页
知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框架(resourcedescriptionframework,简称RDF)形式发布出来.RDF图上的SPARQL查询语义对应于图同态,是一个NP-完全问题.因此,如何使用分布式方... 知识图谱是智能数据的主要表现形式,随着知识图谱领域的不断发展,大量的智能图数据以资源描述框架(resourcedescriptionframework,简称RDF)形式发布出来.RDF图上的SPARQL查询语义对应于图同态,是一个NP-完全问题.因此,如何使用分布式方法在大规模RDF图上有效回答SPARQL查询是一个富有挑战性的问题.目前已有研究使用MapReduce计算模型处理大规模RDF数据,但其将SPARQL查询拆分成单个的查询子句,没有考虑RDF数据的丰富语义和自身的图特性,导致Map Reduce迭代次数过多.首先,利用RDF数据内嵌的语义和结构信息作为启发式信息,将查询图分解为星形的集合,可以在更少次迭代内得到查询结果.同时,分解算法给出中间结果较少的星形匹配顺序,基于此顺序,每轮Map Reduce操作通过连接操作匹配一个新的星形,直至产生最终的答案.最后,在标准合成数据集WatDiv和真实数据集DBpedia上进行大量的实验评估.实验结果表明:所提基于星形分解的分布式SPARQLBGP匹配算法能够高效回答查询,查询时间比SHARD和S2X算法的查询时间平均提高一个数量级,且优化算法的查询时间与基本算法相比缩短了49.63%~78.71%. 展开更多
关键词 星形分解 分布式 基本图模式匹配 大规模RDF MAPREDUCE
在线阅读 下载PDF
基于LDA模型和话题过滤的研究主题演化分析 被引量:29
3
作者 李保利 杨星 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2738-2743,共6页
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题... 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响. 展开更多
关键词 LDA模型 主题演化 种子话题 话题过滤 加权线性组合
在线阅读 下载PDF
基于笔端形状相似性的汉字字体识别 被引量:7
4
作者 王晓 吕肖庆 汤帜 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第1期54-60,共7页
提出一种基于笔端相似性的方法,来解决在较大规模字体集上的单字符字体识别问题。该方法首先提取汉字笔画上的特定部位——笔端,然后利用笔端形状作为汉字的字体特征,对其进行识别。实验证明,该方法不但在常用字体集合上的识别效果优于... 提出一种基于笔端相似性的方法,来解决在较大规模字体集上的单字符字体识别问题。该方法首先提取汉字笔画上的特定部位——笔端,然后利用笔端形状作为汉字的字体特征,对其进行识别。实验证明,该方法不但在常用字体集合上的识别效果优于同类方法,而且在扩展后的大字体集合上也能达到较高的识别率。 展开更多
关键词 字体识别 形状相似性度量 形状描述子 笔端 特征笔端
在线阅读 下载PDF
基于灰色关联分析的推荐信任评估方法 被引量:3
5
作者 赵斌 何泾沙 +1 位作者 张伊璇 翟鹏 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期314-320,共7页
为了解决开放式网络访问控制中利用第三方实体的推荐权重合理评估推荐信任问题,借鉴灰色系统理论,提出基于灰色关联分析的推荐信任评估方法。根据开放网络中各实体间发展态势的相似或相异程度,评估各实体之间关联的紧密程度和推荐权重... 为了解决开放式网络访问控制中利用第三方实体的推荐权重合理评估推荐信任问题,借鉴灰色系统理论,提出基于灰色关联分析的推荐信任评估方法。根据开放网络中各实体间发展态势的相似或相异程度,评估各实体之间关联的紧密程度和推荐权重。算例和仿真实验表明,推荐实体的推荐权重计算得到的结果与实际情况相符,该方法能够保证推荐信任评估决策的有效性和客观性。 展开更多
关键词 开放式网络 访问控制 信任评估 灰色关联分析 推荐实体
在线阅读 下载PDF
版式电子文档表格自动检测与性能评估 被引量:3
6
作者 房婧 高良才 +1 位作者 仇睿恒 汤帜 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期45-53,共9页
针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,... 针对版式电子文档的特点,提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法,并且对中英文档均有效。此外,针对缺少表格定位自动评估体系,构建了一个初具规模的公开数据集,由中英文版式页面等比例组成,对其标注基准结果,并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较,验证了新提出的表格定位方法的有效性和评估体系的实用性,特别是对中文数据集获得了较好的结果。 展开更多
关键词 版式文档 表格定位 表格检测 自动性能评估
在线阅读 下载PDF
一种采用随机归一化相关系数调制的量化水印 被引量:4
7
作者 朱新山 丁杰 《计算机学报》 EI CSCD 北大核心 2012年第9期1959-1970,共12页
该文提出了一种新颖的量化水印.该方案通过调制由宿主信号变换产生的特征信号嵌入水印信息.特征信号由源宿主信号与一个随机信号的归一化相关系数构成.对该信号的调制方法是从水印信息对应的码本中选择一个码字,码本设计使用了均匀量化... 该文提出了一种新颖的量化水印.该方案通过调制由宿主信号变换产生的特征信号嵌入水印信息.特征信号由源宿主信号与一个随机信号的归一化相关系数构成.对该信号的调制方法是从水印信息对应的码本中选择一个码字,码本设计使用了均匀量化器并考虑了多进制的情况.加水印的宿主信号在最小化嵌入失真的意义下产生,并使其与随机信号具有调制后的归一化相关系数.同时,该文给出了嵌入失真与可移除水印信息的最小通道失真的表达式,根据它们可以在码本中搜索最优的码字以提高水印性能.该文方案对幅值缩放攻击具有不变性,而且抗噪能力优于著名的扩展变换抖动调制水印.图像仿真结果表明,该方案具有良好的不可感知性以及能抵抗广泛的攻击,和几种典型的水印方案相比具有显著的性能优势. 展开更多
关键词 数字水印 量化水印 归一化相关系数 鲁棒性 幅值缩放
在线阅读 下载PDF
智能文档操作界面的UIML描述方法 被引量:2
8
作者 施运梅 李宁 刘旭红 《计算机工程与应用》 CSCD 2014年第15期59-64,共6页
从智能文档的概念产生开始到现在,出现了不同的相关产品和研究成果,但是它们在灵活性、可重用性、跨平台等方面存在缺陷。针对这些问题,建立了基于UIML的智能文档模型,模型采用MVC架构,应用用户界面描述语言UIML描述智能文档的操作界面... 从智能文档的概念产生开始到现在,出现了不同的相关产品和研究成果,但是它们在灵活性、可重用性、跨平台等方面存在缺陷。针对这些问题,建立了基于UIML的智能文档模型,模型采用MVC架构,应用用户界面描述语言UIML描述智能文档的操作界面。解析器解析UIML文档,获得界面控件信息及事件响应,并生成动态操作界面。基于模型,建立了一个原型系统,对系统进行了用例测试,测试结果验证了模型的可行性和正确性。 展开更多
关键词 智能文档 用户界面 用户界面描述语言(UIML) 模型-视图-控制器(MVC)
在线阅读 下载PDF
流式文档到固定版式文档的可逆转换方法研究 被引量:1
9
作者 李宁 刘寅 +1 位作者 梁琦 冯雪 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期203-212,共10页
分析以往流式文档和固定版式文档一体化处理方法的局限,提出一种可逆转换方法,即将文档的转换信息记录于目标文档中,以便用于源文档的重构。论述了可逆转换的原理、关键技术、实验结果以及技术优势。选择标文通(UOF)作为流式文档格式,C... 分析以往流式文档和固定版式文档一体化处理方法的局限,提出一种可逆转换方法,即将文档的转换信息记录于目标文档中,以便用于源文档的重构。论述了可逆转换的原理、关键技术、实验结果以及技术优势。选择标文通(UOF)作为流式文档格式,CEBX作为固定版式文档格式,利用该方法成功地实现标文通文档到CEBX文档的可逆转换,实验结果表明,该方法取得较好的效果。 展开更多
关键词 版流一体化 文档格式 文档转换 UOF CEBX
在线阅读 下载PDF
一种适用于跨安全管理域的分布式服务调用方法 被引量:2
10
作者 房俊 韩燕波 《小型微型计算机系统》 CSCD 北大核心 2014年第9期1956-1960,共5页
针对服务集成时跨安全管理域服务调用面临的问题,结合某部门的实际应用需求,提出了一种适用于跨安全管理域的分布式服务调用方法,该方法使用对等的服务访问代理实现跨管理域的服务请求路由和调用,利用信息隐藏和加密技术保障服务响应结... 针对服务集成时跨安全管理域服务调用面临的问题,结合某部门的实际应用需求,提出了一种适用于跨安全管理域的分布式服务调用方法,该方法使用对等的服务访问代理实现跨管理域的服务请求路由和调用,利用信息隐藏和加密技术保障服务响应结果的安全传输.针对信息服务集成使用上述方法面临的服务调用性能问题,通过数据压缩减少服务响应结果在网络上的传输量,降低传输时间;提出一种在本地服务管理域和远端服务管理域缓存相应服务响应结果的两级缓存机制,实验结果表明,压缩和缓存服务响应结果能够提升服务调用的时间性能. 展开更多
关键词 分布式服务调用 安全 数据压缩 服务响应结果缓存
在线阅读 下载PDF
布谷鸟搜索算法研究及其应用进展 被引量:17
11
作者 吴一全 周建伟 《智能系统学报》 CSCD 北大核心 2020年第3期435-444,共10页
为进一步加强布谷鸟算法的搜寻能力并提升收敛速度,加快对算法的研究与应用进程,综述了布谷鸟算法的原理、研究概况和其他同类群体智能优化算法的比较及发展趋势。首先给出了算法的基本模型和实现步骤;然后重点阐述了基于发现概率和步... 为进一步加强布谷鸟算法的搜寻能力并提升收敛速度,加快对算法的研究与应用进程,综述了布谷鸟算法的原理、研究概况和其他同类群体智能优化算法的比较及发展趋势。首先给出了算法的基本模型和实现步骤;然后重点阐述了基于发现概率和步长控制量、基于自适应步长、基于混沌理论、与其他算法混合、基于种群特征和种群变异、结合优化策略及基于种群多样性等方面的改进方法,总结了算法的主要应用领域及其进展;随后将其与遗传算法、蚁群优化算法、粒子群优化算法及人工蜂群优化算法的优点、缺点及适用性诸方面进行了对比;最后指出了布谷鸟搜索算法尚存在的缺陷并对进一步的研究方向进行了展望。 展开更多
关键词 群体智能 布谷鸟搜索算法 启发式算法 寄巢产卵 莱维飞行 自适应步长 混沌 种群多样性
在线阅读 下载PDF
基于混沌布谷鸟优化的二维Tsallis交叉熵建筑物遥感图像分割 被引量:7
12
作者 吴一全 周建伟 《数据采集与处理》 CSCD 北大核心 2019年第1期22-31,共10页
为了进一步提升建筑物遥感图像分割的准确性和运算速度,本文提出了基于混沌布谷鸟优化的二维Tsallis交叉熵的建筑物遥感图像分割方法。首先给出了二维Tsallis交叉熵的阈值选取公式,然后将Logistic混沌映射引入布谷鸟算法,进一步加快布... 为了进一步提升建筑物遥感图像分割的准确性和运算速度,本文提出了基于混沌布谷鸟优化的二维Tsallis交叉熵的建筑物遥感图像分割方法。首先给出了二维Tsallis交叉熵的阈值选取公式,然后将Logistic混沌映射引入布谷鸟算法,进一步加快布谷鸟算法的收敛速度,最后通过该混沌布谷鸟算法优化基于二维Tsallis交叉熵的阈值寻找过程,并以得到的最优阈值分割建筑物遥感图像。大量实验结果表明,与二维倒数交叉熵法、二维Tsallis熵法、基于混沌粒子群优化的二维Tsallis灰度熵法等方法相比较,本文方法分割的目标更为准确,细节更为清晰,且运算时间更短。 展开更多
关键词 建筑物提取 遥感图像 图像分割 阈值选取 布谷鸟算法 Tsallis交叉熵
在线阅读 下载PDF
一种基于Gestalt原理的多连通分量形状外包络提取方法
13
作者 吕肖庆 符松平 +2 位作者 宋建国 高良才 汤帜 《计算机学报》 EI CSCD 北大核心 2013年第10期2070-2077,共8页
图形识别领域的学者们正在将研究重点从简单图形转向复杂图形,其中,由多个独立图元(该文中称为连通分量)组合成的外轮廓对于复杂图形的整体分析起着至关重要的作用.该文提出了一种针对多连通分量形状提取整体外轮廓(即外包络)的方法.该... 图形识别领域的学者们正在将研究重点从简单图形转向复杂图形,其中,由多个独立图元(该文中称为连通分量)组合成的外轮廓对于复杂图形的整体分析起着至关重要的作用.该文提出了一种针对多连通分量形状提取整体外轮廓(即外包络)的方法.该方法基于德劳内三角剖分(Delaunay Triangulation),根据Gestalt原理,通过对轮廓片段的凹度和连通分量之间松散度的分析,构造了紧致的外包络,特别是针对断口情况,即由于明显内凹或间隙过大造成的视觉缺失,提出了一种基于平滑曲线对接的恢复方法,最终得到了更符合人类视觉感知的外轮廓.实验对象选自MPEG-7图形库,实验结果表明了该文方法在提取复杂图形外轮廓方面的有效性. 展开更多
关键词 外包络提取 多图元形状 平滑对接 Gestalt原理 图形检索
在线阅读 下载PDF
尺度与颜色不变性图像特征描述 被引量:2
14
作者 刘岩 吕肖庆 +2 位作者 秦叶阳 汤帜 徐剑波 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2297-2302,共6页
尺度不变特征变换是目前公认的鲁棒性最强的图像特征描述方法之一,在尺度不变性和几何不变性方面具有较好的特性,但该方法主要适用于灰度图像,对图像颜色的区分能力不强,因此,一些对象可能会因为颜色的不同而被错误的区分.另外,尺度不... 尺度不变特征变换是目前公认的鲁棒性最强的图像特征描述方法之一,在尺度不变性和几何不变性方面具有较好的特性,但该方法主要适用于灰度图像,对图像颜色的区分能力不强,因此,一些对象可能会因为颜色的不同而被错误的区分.另外,尺度不变特征变换对关键点局部范围内描述子主方向的依赖性非常强,直接决定了匹配的正确率,但是研究表明,主方向分配产生的误差仅有三分之二左右能控制在[-20。,+20。]范围内,因此部分特征会有三分之一的概率因为主方向分配的误差较大而不能正确匹配.针对以上两个问题,本文提出了一种具有颜色和尺度不变性的局部特征描述方法,颜色不变性通过将RGB图像转换到高斯颜色模型下实现,特征描述过程中不再分配主方向,而用局部相对方向,尺度不变性通过构建高斯金子塔实现.实验选取阿姆斯特丹数据集图像进行了测试,结果表明本文方法比传统尺度不变特征变换方法,在特征点的数目、分布均匀性以及匹配精度方面均有所提高. 展开更多
关键词 尺度不变特征变换 颜色不变性 尺度不变性 增强型近似最近邻匹配 主方向
在线阅读 下载PDF
基于多核学习的投影非负矩阵分解算法 被引量:3
15
作者 李谦 景丽萍 于剑 《计算机科学》 CSCD 北大核心 2014年第2期64-67,共4页
非负矩阵分解(NMF)把给定的数据矩阵分解成低维的非负基矩阵和对应的系数矩阵,两者之间存在必然联系。为此,研究者将基矩阵转换为系数矩阵的投影,进一步提高分解效率。但是该方法无法处理非线性数据,核函数的引入部分解决了此问题,却同... 非负矩阵分解(NMF)把给定的数据矩阵分解成低维的非负基矩阵和对应的系数矩阵,两者之间存在必然联系。为此,研究者将基矩阵转换为系数矩阵的投影,进一步提高分解效率。但是该方法无法处理非线性数据,核函数的引入部分解决了此问题,却同时导致核函数参数选择的问题。基于多核学习理论,提出了一种多核学习的投影非负矩阵分解(MKPNMF)算法,该算法有效地避免了核函数参数选择的问题,同时提高了学习性能。在实际人脸数据上的实验结果表明,MKPNMF较已有的NMF类方法具备明显的性能优势。 展开更多
关键词 投影非负矩阵分解 核函数 多核学习
在线阅读 下载PDF
CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 被引量:5
16
作者 谢海华 李奥林 +4 位作者 李亚博 陈志优 程静 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2021年第5期38-45,共8页
由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错... 由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战。现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练。该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能。CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正。为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法。CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型。 展开更多
关键词 中文错别字纠正 预训练语言模型 单字级别模型
在线阅读 下载PDF
标文通文档格式到电子书格式的分析与转换 被引量:1
17
作者 刘寅 冯雪 +1 位作者 李宁 田英爱 《计算机工程与应用》 CSCD 2013年第11期130-134,152,共6页
为实现"标文通"(Uniform Office Format,UOF)文档格式到EPUB电子书格式的转换,重点分析了UOF格式和EPUB格式的结构以及两种结构之间的映射关系,并详细设计了转换式样单,提出了预处理与主转换相结合的转换思路。通过构建转换器... 为实现"标文通"(Uniform Office Format,UOF)文档格式到EPUB电子书格式的转换,重点分析了UOF格式和EPUB格式的结构以及两种结构之间的映射关系,并详细设计了转换式样单,提出了预处理与主转换相结合的转换思路。通过构建转换器,首次实现两种文档格式之间的转换,方便手持设备用户浏览UOF文档。该项研究对于文档信息共享,流式文档到电子书的转换和"标文通"国家标准的推广实施具有重要意义。 展开更多
关键词 标文通 电子书 EPUB 式样单 文档格式转换
在线阅读 下载PDF
基于规则的最短路径查询算法 被引量:13
18
作者 李忠飞 杨雅君 王鑫 《软件学报》 EI CSCD 北大核心 2019年第3期515-536,共22页
最短路径查询是图数据管理中非常重要的一类问题.研究了基于规则的最短路径查询,它是一类特殊的最短路径查询问题.给定起点和终点,基于规则的最短路径查询是指找到一条从起点到终点的最短路径,使得此路径经过用户指定点集中的所有点,并... 最短路径查询是图数据管理中非常重要的一类问题.研究了基于规则的最短路径查询,它是一类特殊的最短路径查询问题.给定起点和终点,基于规则的最短路径查询是指找到一条从起点到终点的最短路径,使得此路径经过用户指定点集中的所有点,并且某些点的访问顺序满足一定的偏序规则.该问题被证明是一个NP-hard问题.目前已有的工作侧重于空间数据集(两点之间的最短距离用欧氏距离表示)上基于规则的最短路径问题,它采用穷举的方式列出所有满足规则的路径,然后选择长度最小的路径作为问题的解.然而在实际的道路交通网中,两点之间的距离等于两点之间的最短路径的长度,它往往大于两点之间的欧氏距离;此外,采用穷举的方式会造成大量重复的计算.因此,设计了一种前向搜索算法以及一些优化技术来求解该问题.最后,在不同的真实数据集上设计了大量的实验来验证算法的有效性.实验结果表明,该算法可以快速给出问题的解,而且算法的效率在很大程度上超过了现有的算法. 展开更多
关键词 图数据 最短路径 规则 最优子排列 分层收缩
在线阅读 下载PDF
结合统计特征和图模型的半监督式中文关键短语抽取方法 被引量:3
19
作者 谢海华 陈雪飞 +2 位作者 都仪敏 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型... 关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。 展开更多
关键词 中文关键短语抽取 半监督式方法 图模型 统计特征
在线阅读 下载PDF
基于数据增强和多任务特征学习的中文语法错误检测方法 被引量:2
20
作者 谢海华 陈志优 +2 位作者 程静 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第12期36-43,共8页
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练... 由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。 展开更多
关键词 中文语法错误检测 数据增强 多任务学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部