期刊文献+
共找到45,808篇文章
< 1 2 250 >
每页显示 20 50 100
基于时差的多输出tri-training异构软测量建模
1
作者 王大芬 唐莉丽 +3 位作者 张鑫焱 聂春雨 李明珠 吴菁 《化工学报》 北大核心 2025年第3期1143-1155,共13页
软测量技术为工业过程中重要变量及难测变量的预测提供了一个有效的解决办法。然而,由于工业过程的复杂化和高昂的数据获取成本,使得标记数据与未标记数据分布不平衡。此时,构建高性能的软测量模型成为一个挑战。针对这一问题,提出了一... 软测量技术为工业过程中重要变量及难测变量的预测提供了一个有效的解决办法。然而,由于工业过程的复杂化和高昂的数据获取成本,使得标记数据与未标记数据分布不平衡。此时,构建高性能的软测量模型成为一个挑战。针对这一问题,提出了一种基于时差的多输出tri-training异构软测量方法。通过构建一种新的tri-training框架,采用多输出的高斯过程回归(multi-output Gaussian process regression,MGPR)、相关向量机(multi-output relevance vector machine,MRVM)、最小二乘支持向量机(multi-output least squares support vector machine,MLSSVM)三种模型作为基线监督回归器,使用标记数据进行训练和迭代;同时,引入时间差分(time difference,TD)改进模型的动态特性,并通过卡尔曼滤波(Kalman filtering,KF)优化模型的参数,提高其预测性能;最后通过模拟污水处理平台(benchmark simulation model 1,BSM1)和实际污水处理厂对该模型进行了验证。结果表明,与传统的软测量建模方法相比,该模型能显著提高数据分布不平衡下软测量模型的自适应性和预测性能。 展开更多
关键词 TRI-training 软测量 时间差分 协同训练 集成 预测 过程控制
在线阅读 下载PDF
Robust adaptive radar beamforming based on iterative training sample selection using kurtosis of generalized inner product statistics 被引量:1
2
作者 TIAN Jing ZHANG Wei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2024年第1期24-30,共7页
In engineering application,there is only one adaptive weights estimated by most of traditional early warning radars for adaptive interference suppression in a pulse reputation interval(PRI).Therefore,if the training s... In engineering application,there is only one adaptive weights estimated by most of traditional early warning radars for adaptive interference suppression in a pulse reputation interval(PRI).Therefore,if the training samples used to calculate the weight vector does not contain the jamming,then the jamming cannot be removed by adaptive spatial filtering.If the weight vector is constantly updated in the range dimension,the training data may contain target echo signals,resulting in signal cancellation effect.To cope with the situation that the training samples are contaminated by target signal,an iterative training sample selection method based on non-homogeneous detector(NHD)is proposed in this paper for updating the weight vector in entire range dimension.The principle is presented,and the validity is proven by simulation results. 展开更多
关键词 adaptive radar beamforming training sample selection non-homogeneous detector electronic jamming jamming suppression
在线阅读 下载PDF
Low rank optimization for efficient deep learning:making a balance between compact architecture and fast training
3
作者 OU Xinwei CHEN Zhangxin +1 位作者 ZHU Ce LIU Yipeng 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第3期509-531,F0002,共24页
Deep neural networks(DNNs)have achieved great success in many data processing applications.However,high computational complexity and storage cost make deep learning difficult to be used on resource-constrained devices... Deep neural networks(DNNs)have achieved great success in many data processing applications.However,high computational complexity and storage cost make deep learning difficult to be used on resource-constrained devices,and it is not environmental-friendly with much power cost.In this paper,we focus on low-rank optimization for efficient deep learning techniques.In the space domain,DNNs are compressed by low rank approximation of the network parameters,which directly reduces the storage requirement with a smaller number of network parameters.In the time domain,the network parameters can be trained in a few subspaces,which enables efficient training for fast convergence.The model compression in the spatial domain is summarized into three categories as pre-train,pre-set,and compression-aware methods,respectively.With a series of integrable techniques discussed,such as sparse pruning,quantization,and entropy coding,we can ensemble them in an integration framework with lower computational complexity and storage.In addition to summary of recent technical advances,we have two findings for motivating future works.One is that the effective rank,derived from the Shannon entropy of the normalized singular values,outperforms other conventional sparse measures such as the?_1 norm for network compression.The other is a spatial and temporal balance for tensorized neural networks.For accelerating the training of tensorized neural networks,it is crucial to leverage redundancy for both model compression and subspace training. 展开更多
关键词 model compression subspace training effective rank low rank tensor optimization efficient deep learning
在线阅读 下载PDF
Cloudless-Training:基于serverless的高效跨地域分布式ML训练框架
4
作者 谭文婷 吕存驰 +1 位作者 史骁 赵晓芳 《高技术通讯》 CAS 北大核心 2024年第3期219-232,共14页
跨地域分布式机器学习(ML)训练能够联合多区域的云资源协作训练,可满足许多新兴ML场景(比如大型模型训练、联邦学习)的训练需求。但其训练效率仍受2方面挑战的制约。首先,多区域云资源缺乏有效的弹性调度,这会影响训练的资源利用率和性... 跨地域分布式机器学习(ML)训练能够联合多区域的云资源协作训练,可满足许多新兴ML场景(比如大型模型训练、联邦学习)的训练需求。但其训练效率仍受2方面挑战的制约。首先,多区域云资源缺乏有效的弹性调度,这会影响训练的资源利用率和性能;其次,模型跨地域同步需要在广域网(WAN)上高频通信,受WAN的低带宽和高波动的影响,会产生巨大通信开销。本文提出Cloudless-Training,从3个方面实现高效的跨地域分布式ML训练。首先,它基于serverless计算模式实现,使用控制层和训练执行层的2层架构,支持多云区域的弹性调度和通信。其次,它提供一种弹性调度策略,根据可用云资源的异构性和训练数据集的分布自适应地部署训练工作流。最后,它提供了2种高效的跨云同步策略,包括基于梯度累积的异步随机梯度下降(ASGD-GA)和跨云参数服务器(PS)间的模型平均(MA)。Cloudless-Training是基于OpenFaaS实现的,并被部署在腾讯云上评估,实验结果表明Cloudless-Training可显著地提高跨地域分布式ML训练的资源利用率(训练成本降低了9.2%~24.0%)和同步效率(训练速度最多比基线快1.7倍),并能保证模型的收敛精度。 展开更多
关键词 跨地域分布式机器学习(ML)训练 跨云ML训练 分布式训练框架 serverless 跨云模型同步
在线阅读 下载PDF
基于密度峰值聚类的Tri-training算法
5
作者 罗宇航 吴润秀 +3 位作者 崔志华 张翼英 何业慎 赵嘉 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1189-1198,共10页
Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类... Tri-training利用无标签数据进行分类可有效提高分类器的泛化能力,但其易将无标签数据误标,从而形成训练噪声。提出一种基于密度峰值聚类的Tri-training(Tri-training with density peaks clustering,DPC-TT)算法。密度峰值聚类通过类簇中心和局部密度可选出数据空间结构表现较好的样本。DPC-TT算法采用密度峰值聚类算法获取训练数据的类簇中心和样本的局部密度,对类簇中心的截断距离范围内的样本认定为空间结构表现较好,标记为核心数据,使用核心数据更新分类器,可降低迭代过程中的训练噪声,进而提高分类器的性能。实验结果表明:相比于标准Tritraining算法及其改进算法,DPC-TT算法具有更好的分类性能。 展开更多
关键词 TRI-training 半监督学习 密度峰值聚类 空间结构 分类器
在线阅读 下载PDF
基于Tri-training的社交媒体药物不良反应实体抽取
6
作者 何忠玻 严馨 +2 位作者 徐广义 张金鹏 邓忠莹 《计算机工程与应用》 CSCD 北大核心 2024年第3期177-186,共10页
社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题... 社交媒体因其数据的实时性,对其充分利用可以弥补传统医疗文献药物不良反应中实体抽取的迟滞性问题,但社交媒体文本面临标注数据成本高、数据噪声大等问题,使得模型难以发挥良好的效果。针对社交媒体大量未标注语料存在标注成本高的问题,采用Tri-training半监督的方法进行社交媒体药物不良反应实体抽取,通过三个学习器Transformer+CRF、BiLSTM+CRF和IDCNN+CRF对未标注数据进行标注,再利用一致性评价函数迭代地扩展训练集,最后通过加权投票整合模型输出标签。针对社交媒体的文本不正式性(口语化严重、错别字等)问题,通过融合字与词两个粒度的向量作为整个模型嵌入层的输入,来提取更丰富的语义信息。实验结果表明,提出的模型在“好大夫在线”网站获取的数据集上取得了良好表现。 展开更多
关键词 中文社交媒体 药物不良反应 实体抽取 半监督学习 TRI-training
在线阅读 下载PDF
基于特征选择与改进的Tri-training的半监督网络流量分类 被引量:1
7
作者 李道全 祝圣凯 +1 位作者 翟豫阳 胡一帆 《计算机工程与应用》 CSCD 北大核心 2024年第23期275-285,共11页
网络流量分类对网络管理意义重大,目前基于机器学习的流量分类方法存在标注瓶颈、样本不平衡的问题。针对这两个问题,提出一种基于特征选择与改进的Tri-training算法结合的半监督网络流量分类模型。根据最大信息系数、皮尔逊系数选择出... 网络流量分类对网络管理意义重大,目前基于机器学习的流量分类方法存在标注瓶颈、样本不平衡的问题。针对这两个问题,提出一种基于特征选择与改进的Tri-training算法结合的半监督网络流量分类模型。根据最大信息系数、皮尔逊系数选择出与类高度相关但彼此不相关的特征,利用改进的Relief F选择出有利于少数类分类的特征,并将选择出的特征组合成最优特征子集缓解不平衡数据对分类的影响。结合集成思想,优化迭代和加权决策改进传统Tri-training算法,利用改进的Tri-training算法解决标注瓶颈问题。在Moore数据集上进行了实验,实验结果表明提出的方法在利用不平衡的少量有标记的数据下在F-measure上达到了95.26%,与先进的机器学习算法和原始Tri-training方法及其一些改进算法相比具有更好的分类性能。 展开更多
关键词 半监督网络 类不平衡 网络流量分类 特征选择 TRI-training
在线阅读 下载PDF
A satellite observation data considered train positioning optimization method with RTK
8
作者 YUCHI Zhen-xin LI Wei +3 位作者 GAO Shi-juan CHEN Chun-yang HUANG Su-su JIANG Ji-xiong 《Journal of Central South University》 2025年第4期1548-1568,共21页
In this paper,a novel train positioning method considering satellite raw observation data was proposed,which aims to promote train positioning performance from an innovative perspective of the train satellite-based po... In this paper,a novel train positioning method considering satellite raw observation data was proposed,which aims to promote train positioning performance from an innovative perspective of the train satellite-based positioning error sources.The method focused on overcoming the abnormal observations in satellite observation data caused by railway environment rather than the positioning results.Specifically,the relative positioning experimental platform was built and the zero-baseline method was firstly employed to evaluate the carrier phase data quality,and then,GNSS combined observation models were adopted to construct the detection values,which were applied to judge abnormal-data through the dual-frequency observations.Further,ambiguity fixing optimization was investigated based on observation data selection in partly-blocked environments.The results show that the proposed method can effectively detect and address abnormal observations and improve positioning stability.Cycle slips and gross errors can be detected and identified based on dual-frequency global navigation satellite system data.After adopting the data selection strategy,the ambiguity fixing percentage was improved by 29.2%,and the standard deviation in the East,North,and Up components was enhanced by 12.7%,7.4%,and 12.5%,respectively.The proposed method can provide references for train positioning performance optimization in railway environments from the perspective of positioning error sources. 展开更多
关键词 train operation control system train positioning satellite positioning abnormal-data detection real-time kinematic positioning
在线阅读 下载PDF
基于Tri-training GPR的半监督软测量建模方法
9
作者 马君霞 李林涛 熊伟丽 《化工学报》 EI CSCD 北大核心 2024年第7期2613-2623,共11页
集成学习因通过构建并结合多个学习器,常获得比单一学习器显著优越的泛化能力。但是在标记数据比例较少时,建立高性能的集成学习软测量模型依然是个挑战。针对这一个问题,提出一种基于半监督集成学习的软测量建模方法——Tri-training ... 集成学习因通过构建并结合多个学习器,常获得比单一学习器显著优越的泛化能力。但是在标记数据比例较少时,建立高性能的集成学习软测量模型依然是个挑战。针对这一个问题,提出一种基于半监督集成学习的软测量建模方法——Tri-training GPR模型。该建模策略充分发挥了半监督学习的优势,减轻建模过程对标记样本数据的需求,在低数据标签率下,仍能通过对无标记数据进行筛选从而扩充可用于建模的有标记样本数据集,并进一步结合半监督学习和集成学习的优势,提出一种新的选择高置信度样本的思路。将所提方法应用于青霉素发酵和脱丁烷塔过程,建立青霉素和丁烷浓度预测软测量模型,与传统的建模方法相比获得了更优的预测结果,验证了模型的有效性。 展开更多
关键词 软测量 集成学习 半监督学习 TRI-training 高斯过程回归 过程控制 动力学模型 化学过程
在线阅读 下载PDF
基于Tri-training的半监督SVM 被引量:15
10
作者 李昆仑 张伟 代运娜 《计算机工程与应用》 CSCD 北大核心 2009年第22期103-106,共4页
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发... 当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。 展开更多
关键词 半监督学习 协同训练 Tri—training 支持向量机 最小二乘支持向量机
在线阅读 下载PDF
一种结合独立性模型与差异评估的Co-Training改进方案 被引量:7
11
作者 唐焕玲 林正奎 +1 位作者 鲁明羽 邬俊 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1874-1881,共8页
Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了... Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了新的特征子集划分方法PMID-MI与PMID-CHI算法,能有效地将一个特征集合划分成两个独立性较强的子集.并且利用多种差异评估法,进一步验证两个子集的独立性.基分类器之间的差异性能够减少两个基分类器给同一个未标注文本都标注错误的可能性.最后,提出了对Co-Training的改进算法SC-PMID.实验结果表明SC-PMID算法能够明显提高半监督分类精度. 展开更多
关键词 半监督分类 Co—training 标注文本 未标注文本 相互独立性模型 差异性评估
在线阅读 下载PDF
基于Tri-training半监督学习的中文组织机构名识别 被引量:4
12
作者 蔡月红 朱倩 程显毅 《计算机应用研究》 CSCD 北大核心 2010年第1期193-195,共3页
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并... 针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。 展开更多
关键词 中文组织机构名 半监督学习 协同训练 Tri—training
在线阅读 下载PDF
基于Tri-training的主动学习算法 被引量:3
13
作者 张雁 吴保国 +1 位作者 吕丹桔 林英 《计算机工程》 CAS CSCD 2014年第6期215-218,229,共5页
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数... 半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。 展开更多
关键词 半监督学习 主动学习 Tri—training算法 熵优先采样 Tri-EPS算法
在线阅读 下载PDF
Co-Training——内容和链接的Web Spam检测方法 被引量:4
14
作者 魏小娟 李翠平 陈红 《计算机科学与探索》 CSCD 2010年第10期899-908,共10页
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和... Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。 展开更多
关键词 WEB spam检测方法 内容作弊 链接作弊 Co—training算法
在线阅读 下载PDF
基于Co-training方法的车辆鲁棒检测算法 被引量:1
15
作者 陈阳舟 刘星 +1 位作者 辛乐 杨德亮 《北京工业大学学报》 CAS CSCD 北大核心 2013年第3期394-401,共8页
针对复杂交通场景车辆检测算法自适应能力差的问题,提出了基于Co-training半监督学习方法的车辆鲁棒检测算法.首先,针对手工标记的少量样本,分别训练基于Haar-like特征的AdaBoost分类器和基于HOG(histograms of oriented gradients)特征... 针对复杂交通场景车辆检测算法自适应能力差的问题,提出了基于Co-training半监督学习方法的车辆鲁棒检测算法.首先,针对手工标记的少量样本,分别训练基于Haar-like特征的AdaBoost分类器和基于HOG(histograms of oriented gradients)特征的SVM(support vector machines)分类器,使其具有一定的识别能力;然后,基于Co-training半监督学习框架,将利用2种算法进行分类得到的新样本分别加入到对方的样本库中,增加训练样本数量,再次进行分类器的训练.由于这2类特征具有冗余性,各自检测出的正负样本包含对方漏检和误检的图像.由于样本数的增加,再次训练所得到的新分类器的鲁棒性得到了很大提高,能更加准确地检测出车辆,而且由算法对未标记样本进行分类标记,不再需要人为标记,提高了车辆检测算法的自适应能力. 展开更多
关键词 车辆检测 Co—training Haar—like特征 ADABOOST分类器 HOG特征 SVM分类器
在线阅读 下载PDF
基于Co-training的图像自动标注
16
作者 柯逍 李绍滋 陈国龙 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期486-492,共7页
图像自动标注是图像理解与模式识别等领域中具有挑战性的关键研究问题.目前图像自动标注领域存在着一些问题,如未标注数据规模要远大于标注数据规模,只能单独使用某种图像分割策略与某类图像表示方法.针对上述问题,提出了基于Co-trainin... 图像自动标注是图像理解与模式识别等领域中具有挑战性的关键研究问题.目前图像自动标注领域存在着一些问题,如未标注数据规模要远大于标注数据规模,只能单独使用某种图像分割策略与某类图像表示方法.针对上述问题,提出了基于Co-training的图像自动标注方法,通过构建4个独立的特征属性进而建立4个子分类器,将不同的图像分割方法与特征表示方法整合到一个统一框架中,利用提出的基于投票与一致性相结合的自适应算法扩展原始训练集.该方法通过使用Co-training算法,利用大量未标注数据来提升图像自动标注的性能.通过在Corel 5K数据库上进行实验,验证了提出方法的有效性. 展开更多
关键词 图像自动标注 Co—training算法 统一框架 相关模型
在线阅读 下载PDF
基于辅助学习与富信息策略的Tri-training算法
17
作者 崔龙杰 王红丽 崔荣一 《计算机应用研究》 CSCD 北大核心 2014年第9期2685-2687,共3页
针对Tri-training算法利用无标记样例时会引入噪声且限制无标记样例的利用率而导致分类性能下降的缺点,提出了AR-Tri-training(Tri-training with assistant and rich strategy)算法。提出辅助学习策略,结合富信息策略设计辅助学习器,... 针对Tri-training算法利用无标记样例时会引入噪声且限制无标记样例的利用率而导致分类性能下降的缺点,提出了AR-Tri-training(Tri-training with assistant and rich strategy)算法。提出辅助学习策略,结合富信息策略设计辅助学习器,并将辅助学习器应用在Tri-training训练以及说话声识别中。实验结果表明,辅助学习器在Tri-training训练的基础上不仅降低每次迭代可能产生的误标记样例数,而且能够充分地利用无标记样例以及在验证集上的错分样例信息。从实验结果可以得出,该算法能够弥补Tri-training算法的缺点,进一步提高测试率。 展开更多
关键词 半监督学习 富信息策略 辅助学习策略 Tri—training 说话声识别
在线阅读 下载PDF
基于Tri-training的入侵检测算法 被引量:2
18
作者 邬书跃 余杰 樊晓平 《计算机工程》 CAS CSCD 2012年第6期158-160,共3页
半监督的双协同训练要求划分出的2个数据向量相互独立,不符合真实的网络入侵检测数据特征。为此,提出一种基于三协同训练(Tri-training)的入侵检测算法。使用大量未标记数据,通过3个分类器对检测结果进行循环迭代训练,避免交叉验证。仿... 半监督的双协同训练要求划分出的2个数据向量相互独立,不符合真实的网络入侵检测数据特征。为此,提出一种基于三协同训练(Tri-training)的入侵检测算法。使用大量未标记数据,通过3个分类器对检测结果进行循环迭代训练,避免交叉验证。仿真实验表明,在少量样本情况下,该算法的检测准确度比SVM Co-training算法提高了2.1%,并且随着循环次数的增加,其性能优势更加明显。 展开更多
关键词 入侵检测 小样本 支持向量机 半监督 双协同训练 三协同训练
在线阅读 下载PDF
基于改进DE-Tri-Training算法的汉语多词表达抽取 被引量:2
19
作者 梁颖红 谭红叶 +3 位作者 鲜学丰 黄丹丹 钱海忠 沈春泽 《数据采集与处理》 CSCD 北大核心 2017年第1期141-148,共8页
多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数... 多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数据净化方法,提出了半指导策略抽取汉语多词表达,聚类算法的中后期也加入有指导的信息,使分类器能使用正确的标注信息进行训练。通过与DETri-Training算法的对比实验,改进的DE-Tri-Training算法得到的汉语多词表达抽取结果优于原来的算法,验证了改进DE-Tri-Training算法的有效性。 展开更多
关键词 多词表达 半指导 协同训练
在线阅读 下载PDF
基于互联网和self-training的中文问答模式学习 被引量:2
20
作者 李志圣 孙越恒 +1 位作者 何丕廉 候越先 《计算机应用》 CSCD 北大核心 2008年第6期1575-1577,1581,共4页
在已有的问答模式学习中,模式定义和候选答案评分偏于简单,而且学习过程依赖于人工标定语料。通过挖掘W eb文本中动、名词序列的骨架模式,用以扩充模式定义;将self-train ing学习机制引入问答模式学习:用一对训练语料进行初始学习,通过... 在已有的问答模式学习中,模式定义和候选答案评分偏于简单,而且学习过程依赖于人工标定语料。通过挖掘W eb文本中动、名词序列的骨架模式,用以扩充模式定义;将self-train ing学习机制引入问答模式学习:用一对训练语料进行初始学习,通过互联网搜索,自动选择可靠程度较高的问答对,重新训练;扩充了启发规则,改进候选答案的评分方法。实验结果表明:所提出的问答模式学习方法能有效地提高中文问答系统的性能。 展开更多
关键词 互联网 问答模式 SELF-training 机器学习
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部