期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
统计机器翻译中的非连续短语模板抽取及其应用
被引量:
2
1
作者
孙越恒
段楠
侯越先
《计算机科学》
CSCD
北大核心
2009年第10期192-196,共5页
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助...
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。
展开更多
关键词
统计机器翻译
短语
模板
非连续介词短语
模板抽取
在线阅读
下载PDF
职称材料
英汉TBMT中模板抽取的改进算法及应用
被引量:
1
2
作者
杨思春
程节华
+1 位作者
陈家骏
王启祥
《计算机工程与应用》
CSCD
北大核心
2002年第6期101-103,共3页
基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算...
基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算法可较好地解决英汉机器翻译中的一些歧义问题。
展开更多
关键词
英汉机器翻译
模板
槽
模板抽取
改进算法
计算机
在线阅读
下载PDF
职称材料
基于改进Apriori算法的问题模板无监督抽取方法
被引量:
6
3
作者
柯文俊
高金华
+2 位作者
沈华伟
刘悦
程学旗
《中文信息学报》
CSCD
北大核心
2020年第10期76-84,共9页
在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法...
在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。
展开更多
关键词
问答系统
模板抽取
APRIORI算法
在线阅读
下载PDF
职称材料
针对开源论坛网页的信息抽取研究
被引量:
11
4
作者
刘春梅
郭岩
+3 位作者
俞晓明
赵岭
刘悦
程学旗
《计算机科学与探索》
CSCD
北大核心
2017年第1期114-123,共10页
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基...
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。
展开更多
关键词
记录定位
网页聚类
模板抽取
在线阅读
下载PDF
职称材料
基于机器可读词典的词汇知识抽取
5
作者
樊玉俊
胡熠
陆汝占
《计算机应用与软件》
CSCD
北大核心
2008年第6期8-10,共3页
越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取...
越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。
展开更多
关键词
词汇知识
机器可读词典
模板抽取
最大熵
在线阅读
下载PDF
职称材料
中文文本的信息自动抽取和相似检索机制
被引量:
3
6
作者
林鸿飞
杨志豪
赵晶
《小型微型计算机系统》
CSCD
北大核心
2007年第11期2074-2079,共6页
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上...
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.
展开更多
关键词
信息
抽取
语义
模板
概念扩充模糊语义
在线阅读
下载PDF
职称材料
面向电子商务网站的产品属性提取算法
被引量:
3
7
作者
李俊
陈黎
+2 位作者
王亚强
秦湘清
于中华
《小型微型计算机系统》
CSCD
北大核心
2013年第11期2477-2481,共5页
从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,...
从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法.
展开更多
关键词
商品评论
产品属性
抽取
HITS
抽取
模板
在线阅读
下载PDF
职称材料
基于统计年鉴和网络大数据的房屋竣工面积估算
被引量:
2
8
作者
原雯
王君
+1 位作者
申鸿怡
王新民
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021年第5期804-814,共11页
选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存...
选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存在延迟,难以用模型拟合的方式对该年度竣工面积做出估计。因此,利用爬虫技术获取高质量数据,并深入挖掘网络数据中的信息,通过互联网大数据估算北京市房屋竣工面积。首先,建立基于网络大数据的建筑数据获取框架,通过调用服务接口和关键字搜索等技术,爬取北京地区8类建筑物的属性数据;然后,利用正则表达式和条件过滤,对网页返回的HTML非结构化数据进行抽取和清洗;最后,对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。
展开更多
关键词
竣工面积
回归分析
网络爬虫
模板抽取
在线阅读
下载PDF
职称材料
题名
统计机器翻译中的非连续短语模板抽取及其应用
被引量:
2
1
作者
孙越恒
段楠
侯越先
机构
天津大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2009年第10期192-196,共5页
基金
国家自然科学基金项目(60603027)
微软亚洲研究院(MSRA)资助
文摘
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。
关键词
统计机器翻译
短语
模板
非连续介词短语
模板抽取
Keywords
Statistical machine translation, Phrase template, Discontinuous preposition phrases, Template extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
英汉TBMT中模板抽取的改进算法及应用
被引量:
1
2
作者
杨思春
程节华
陈家骏
王启祥
机构
安徽工业大学(东区)计算机科学与技术系
南京大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2002年第6期101-103,共3页
文摘
基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算法可较好地解决英汉机器翻译中的一些歧义问题。
关键词
英汉机器翻译
模板
槽
模板抽取
改进算法
计算机
Keywords
E-to-C Machine Translation,Template,Slot
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
H085 [语言文字—语言学]
在线阅读
下载PDF
职称材料
题名
基于改进Apriori算法的问题模板无监督抽取方法
被引量:
6
3
作者
柯文俊
高金华
沈华伟
刘悦
程学旗
机构
中国科学院
中国科学院大学
北京计算机技术及应用研究所
烟台中科网络技术研究所
出处
《中文信息学报》
CSCD
北大核心
2020年第10期76-84,共9页
基金
国家重点研发计划(2016QY03D0504)
国家自然科学基金(61425016,61902380)
泰山学者工程专项经费(ts201511082)。
文摘
在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。
关键词
问答系统
模板抽取
APRIORI算法
Keywords
question answering systems
template extraction
Apriori algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
针对开源论坛网页的信息抽取研究
被引量:
11
4
作者
刘春梅
郭岩
俞晓明
赵岭
刘悦
程学旗
机构
中国科学院计算技术研究所
中国科学院大学
出处
《计算机科学与探索》
CSCD
北大核心
2017年第1期114-123,共10页
基金
国家重点基础研究发展计划(973计划)
国家高技术研究发展计划(863计划)
+4 种基金
国家自然科学基金
国家科技支撑计划
山东省自主创新及成果转化专项
中科院医学影像项目
欧盟第七科技框架计划(FP7)项目~~
文摘
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。
关键词
记录定位
网页聚类
模板抽取
Keywords
record locating
Web page clustering
template extraction
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于机器可读词典的词汇知识抽取
5
作者
樊玉俊
胡熠
陆汝占
机构
上海交通大学计算机科学系
出处
《计算机应用与软件》
CSCD
北大核心
2008年第6期8-10,共3页
基金
国家自然科学基金重大项目"非规范知识的基本理论和核心技术"(60496326)的支持
文摘
越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。
关键词
词汇知识
机器可读词典
模板抽取
最大熵
Keywords
Lexical knowledge Machine readable dictionary Pattern extraction Maximum Entropy
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文文本的信息自动抽取和相似检索机制
被引量:
3
6
作者
林鸿飞
杨志豪
赵晶
机构
大连理工大学计算机系
出处
《小型微型计算机系统》
CSCD
北大核心
2007年第11期2074-2079,共6页
基金
国家自然科学基金项目(6037309560673039)资助.
文摘
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.
关键词
信息
抽取
语义
模板
概念扩充模糊语义
Keywords
information extraction
semantic templates
conceptual expansion
fuzzy semantic
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向电子商务网站的产品属性提取算法
被引量:
3
7
作者
李俊
陈黎
王亚强
秦湘清
于中华
机构
四川大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第11期2477-2481,共5页
基金
高等学校博士学科点专项科研基金项目(20100181120029)资助
文摘
从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法.
关键词
商品评论
产品属性
抽取
HITS
抽取
模板
Keywords
product reviews
product attributes
extraction
HITS
extraction patterns
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于统计年鉴和网络大数据的房屋竣工面积估算
被引量:
2
8
作者
原雯
王君
申鸿怡
王新民
机构
北京大学前沿交叉学科研究院
北京大学数学科学学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021年第5期804-814,共11页
基金
国家重点研发计划(2018YFC0704300)资助。
文摘
选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存在延迟,难以用模型拟合的方式对该年度竣工面积做出估计。因此,利用爬虫技术获取高质量数据,并深入挖掘网络数据中的信息,通过互联网大数据估算北京市房屋竣工面积。首先,建立基于网络大数据的建筑数据获取框架,通过调用服务接口和关键字搜索等技术,爬取北京地区8类建筑物的属性数据;然后,利用正则表达式和条件过滤,对网页返回的HTML非结构化数据进行抽取和清洗;最后,对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。
关键词
竣工面积
回归分析
网络爬虫
模板抽取
Keywords
area of completed houses
regression analysis
web crawler
template extraction
分类号
F299.23 [经济管理—国民经济]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
统计机器翻译中的非连续短语模板抽取及其应用
孙越恒
段楠
侯越先
《计算机科学》
CSCD
北大核心
2009
2
在线阅读
下载PDF
职称材料
2
英汉TBMT中模板抽取的改进算法及应用
杨思春
程节华
陈家骏
王启祥
《计算机工程与应用》
CSCD
北大核心
2002
1
在线阅读
下载PDF
职称材料
3
基于改进Apriori算法的问题模板无监督抽取方法
柯文俊
高金华
沈华伟
刘悦
程学旗
《中文信息学报》
CSCD
北大核心
2020
6
在线阅读
下载PDF
职称材料
4
针对开源论坛网页的信息抽取研究
刘春梅
郭岩
俞晓明
赵岭
刘悦
程学旗
《计算机科学与探索》
CSCD
北大核心
2017
11
在线阅读
下载PDF
职称材料
5
基于机器可读词典的词汇知识抽取
樊玉俊
胡熠
陆汝占
《计算机应用与软件》
CSCD
北大核心
2008
0
在线阅读
下载PDF
职称材料
6
中文文本的信息自动抽取和相似检索机制
林鸿飞
杨志豪
赵晶
《小型微型计算机系统》
CSCD
北大核心
2007
3
在线阅读
下载PDF
职称材料
7
面向电子商务网站的产品属性提取算法
李俊
陈黎
王亚强
秦湘清
于中华
《小型微型计算机系统》
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
8
基于统计年鉴和网络大数据的房屋竣工面积估算
原雯
王君
申鸿怡
王新民
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部