检索结果-维普期刊中文期刊服务平台

统计机器翻译中的非连续短语模板抽取及其应用被引量：2: 1; 作者孙越恒段楠侯越先《计算机科学》 CSCD 北大核心 2009年第10期192-196,共5页; 目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助... 展开更多; 关键词统计机器翻译短语模板非连续介词短语模板抽取; 在线阅读下载PDF 职称材料

英汉TBMT中模板抽取的改进算法及应用被引量：1: 2; 作者杨思春程节华 +1 位作者陈家骏王启祥《计算机工程与应用》 CSCD 北大核心 2002年第6期101-103,共3页; 基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算... 展开更多; 关键词英汉机器翻译模板槽模板抽取改进算法计算机; 在线阅读下载PDF 职称材料

基于改进Apriori算法的问题模板无监督抽取方法被引量：6: 3; 作者柯文俊高金华 +2 位作者沈华伟刘悦程学旗《中文信息学报》 CSCD 北大核心 2020年第10期76-84,共9页; 在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法... 展开更多; 关键词问答系统模板抽取 APRIORI算法; 在线阅读下载PDF 职称材料

针对开源论坛网页的信息抽取研究被引量：11: 4; 作者刘春梅郭岩 +3 位作者俞晓明赵岭刘悦程学旗《计算机科学与探索》 CSCD 北大核心 2017年第1期114-123,共10页; 互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基... 展开更多; 关键词记录定位网页聚类模板抽取; 在线阅读下载PDF 职称材料

基于机器可读词典的词汇知识抽取: 5; 作者樊玉俊胡熠陆汝占《计算机应用与软件》 CSCD 北大核心 2008年第6期8-10,共3页; 越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取... 展开更多; 关键词词汇知识机器可读词典模板抽取最大熵; 在线阅读下载PDF 职称材料

中文文本的信息自动抽取和相似检索机制被引量：3: 6; 作者林鸿飞杨志豪赵晶《小型微型计算机系统》 CSCD 北大核心 2007年第11期2074-2079,共6页; 目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上... 展开更多; 关键词信息抽取语义模板概念扩充模糊语义; 在线阅读下载PDF 职称材料

面向电子商务网站的产品属性提取算法被引量：3: 7; 作者李俊陈黎 +2 位作者王亚强秦湘清于中华《小型微型计算机系统》 CSCD 北大核心 2013年第11期2477-2481,共5页; 从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,... 展开更多; 关键词商品评论产品属性抽取 HITS 抽取模板; 在线阅读下载PDF 职称材料

基于统计年鉴和网络大数据的房屋竣工面积估算被引量：2: 8; 作者原雯王君 +1 位作者申鸿怡王新民《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2021年第5期804-814,共11页; 选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存... 展开更多; 关键词竣工面积回归分析网络爬虫模板抽取; 在线阅读下载PDF 职称材料

题名统计机器翻译中的非连续短语模板抽取及其应用被引量：2: 1; 作者孙越恒段楠侯越先; 机构天津大学计算机科学与技术学院; 出处《计算机科学》 CSCD 北大核心 2009年第10期192-196,共5页; 基金国家自然科学基金项目(60603027) 微软亚洲研究院(MSRA)资助; 文摘目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。; 关键词统计机器翻译短语模板非连续介词短语模板抽取; Keywords Statistical machine translation, Phrase template, Discontinuous preposition phrases, Template extraction; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名英汉TBMT中模板抽取的改进算法及应用被引量：1: 2; 作者杨思春程节华陈家骏王启祥; 机构安徽工业大学(东区)计算机科学与技术系南京大学计算机科学与技术系; 出处《计算机工程与应用》 CSCD 北大核心 2002年第6期101-103,共3页; 文摘基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算法可较好地解决英汉机器翻译中的一些歧义问题。; 关键词英汉机器翻译模板槽模板抽取改进算法计算机; Keywords E-to-C Machine Translation,Template,Slot; 分类号 TP391.2 [自动化与计算机技术—计算机应用技术] H085 [语言文字—语言学]; 在线阅读下载PDF 职称材料

题名基于改进Apriori算法的问题模板无监督抽取方法被引量：6: 3; 作者柯文俊高金华沈华伟刘悦程学旗; 机构中国科学院中国科学院大学北京计算机技术及应用研究所烟台中科网络技术研究所; 出处《中文信息学报》 CSCD 北大核心 2020年第10期76-84,共9页; 基金国家重点研发计划(2016QY03D0504) 国家自然科学基金(61425016,61902380) 泰山学者工程专项经费(ts201511082)。; 文摘在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。; 关键词问答系统模板抽取 APRIORI算法; Keywords question answering systems template extraction Apriori algorithm; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名针对开源论坛网页的信息抽取研究被引量：11: 4; 作者刘春梅郭岩俞晓明赵岭刘悦程学旗; 机构中国科学院计算技术研究所中国科学院大学; 出处《计算机科学与探索》 CSCD 北大核心 2017年第1期114-123,共10页; 基金国家重点基础研究发展计划(973计划) 国家高技术研究发展计划(863计划) +4 种基金国家自然科学基金国家科技支撑计划中科院医学影像项目欧盟第七科技框架计划(FP7)项目~~; 文摘互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。; 关键词记录定位网页聚类模板抽取; Keywords record locating Web page clustering template extraction; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于机器可读词典的词汇知识抽取: 5; 作者樊玉俊胡熠陆汝占; 机构上海交通大学计算机科学系; 出处《计算机应用与软件》 CSCD 北大核心 2008年第6期8-10,共3页; 基金国家自然科学基金重大项目"非规范知识的基本理论和核心技术"(60496326)的支持; 文摘越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。; 关键词词汇知识机器可读词典模板抽取最大熵; Keywords Lexical knowledge Machine readable dictionary Pattern extraction Maximum Entropy; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名中文文本的信息自动抽取和相似检索机制被引量：3: 6; 作者林鸿飞杨志豪赵晶; 机构大连理工大学计算机系; 出处《小型微型计算机系统》 CSCD 北大核心 2007年第11期2074-2079,共6页; 基金国家自然科学基金项目(6037309560673039)资助.; 文摘目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.; 关键词信息抽取语义模板概念扩充模糊语义; Keywords information extraction semantic templates conceptual expansion fuzzy semantic; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名面向电子商务网站的产品属性提取算法被引量：3: 7; 作者李俊陈黎王亚强秦湘清于中华; 机构四川大学计算机学院; 出处《小型微型计算机系统》 CSCD 北大核心 2013年第11期2477-2481,共5页; 基金高等学校博士学科点专项科研基金项目(20100181120029)资助; 文摘从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法.; 关键词商品评论产品属性抽取 HITS 抽取模板; Keywords product reviews product attributes extraction HITS extraction patterns; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于统计年鉴和网络大数据的房屋竣工面积估算被引量：2: 8; 作者原雯王君申鸿怡王新民; 机构北京大学前沿交叉学科研究院北京大学数学科学学院; 出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2021年第5期804-814,共11页; 基金国家重点研发计划(2018YFC0704300)资助。; 文摘选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存在延迟,难以用模型拟合的方式对该年度竣工面积做出估计。因此,利用爬虫技术获取高质量数据,并深入挖掘网络数据中的信息,通过互联网大数据估算北京市房屋竣工面积。首先,建立基于网络大数据的建筑数据获取框架,通过调用服务接口和关键字搜索等技术,爬取北京地区8类建筑物的属性数据;然后,利用正则表达式和条件过滤,对网页返回的HTML非结构化数据进行抽取和清洗;最后,对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。; 关键词竣工面积回归分析网络爬虫模板抽取; Keywords area of completed houses regression analysis web crawler template extraction; 分类号 F299.23 [经济管理—国民经济]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	统计机器翻译中的非连续短语模板抽取及其应用	孙越恒段楠侯越先	《计算机科学》 CSCD 北大核心	2009	2	在线阅读下载PDF 职称材料
2	英汉TBMT中模板抽取的改进算法及应用	杨思春程节华陈家骏王启祥	《计算机工程与应用》 CSCD 北大核心	2002	1	在线阅读下载PDF 职称材料
3	基于改进Apriori算法的问题模板无监督抽取方法	柯文俊高金华沈华伟刘悦程学旗	《中文信息学报》 CSCD 北大核心	2020	6	在线阅读下载PDF 职称材料
4	针对开源论坛网页的信息抽取研究	刘春梅郭岩俞晓明赵岭刘悦程学旗	《计算机科学与探索》 CSCD 北大核心	2017	11	在线阅读下载PDF 职称材料
5	基于机器可读词典的词汇知识抽取	樊玉俊胡熠陆汝占	《计算机应用与软件》 CSCD 北大核心	2008	0	在线阅读下载PDF 职称材料
6	中文文本的信息自动抽取和相似检索机制	林鸿飞杨志豪赵晶	《小型微型计算机系统》 CSCD 北大核心	2007	3	在线阅读下载PDF 职称材料
7	面向电子商务网站的产品属性提取算法	李俊陈黎王亚强秦湘清于中华	《小型微型计算机系统》 CSCD 北大核心	2013	3	在线阅读下载PDF 职称材料
8	基于统计年鉴和网络大数据的房屋竣工面积估算	原雯王君申鸿怡王新民	《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心	2021	2	在线阅读下载PDF 职称材料