期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
统计机器翻译中的非连续短语模板抽取及其应用 被引量:2
1
作者 孙越恒 段楠 侯越先 《计算机科学》 CSCD 北大核心 2009年第10期192-196,共5页
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助... 目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。 展开更多
关键词 统计机器翻译 短语模板 非连续介词短语 模板抽取
在线阅读 下载PDF
英汉TBMT中模板抽取的改进算法及应用 被引量:1
2
作者 杨思春 程节华 +1 位作者 陈家骏 王启祥 《计算机工程与应用》 CSCD 北大核心 2002年第6期101-103,共3页
基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算... 基于模板的机器翻译(简称TBMT)是为了提高当前机器翻译系统译文生成质量而采用的一种新的翻译方法,该技术的关键是模板的抽取。文章针对英汉机器翻译中的现存问题,在“动词+虚词”形式的模板抽取算法的基础上提出一种改进算法,应用该算法可较好地解决英汉机器翻译中的一些歧义问题。 展开更多
关键词 英汉机器翻译 模板 模板抽取改进算法 计算机
在线阅读 下载PDF
基于改进Apriori算法的问题模板无监督抽取方法 被引量:6
3
作者 柯文俊 高金华 +2 位作者 沈华伟 刘悦 程学旗 《中文信息学报》 CSCD 北大核心 2020年第10期76-84,共9页
在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法... 在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。 展开更多
关键词 问答系统 模板抽取 APRIORI算法
在线阅读 下载PDF
针对开源论坛网页的信息抽取研究 被引量:11
4
作者 刘春梅 郭岩 +3 位作者 俞晓明 赵岭 刘悦 程学旗 《计算机科学与探索》 CSCD 北大核心 2017年第1期114-123,共10页
互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基... 互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。 展开更多
关键词 记录定位 网页聚类 模板抽取
在线阅读 下载PDF
基于机器可读词典的词汇知识抽取
5
作者 樊玉俊 胡熠 陆汝占 《计算机应用与软件》 CSCD 北大核心 2008年第6期8-10,共3页
越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取... 越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。 展开更多
关键词 词汇知识 机器可读词典 模板抽取 最大熵
在线阅读 下载PDF
中文文本的信息自动抽取和相似检索机制 被引量:3
6
作者 林鸿飞 杨志豪 赵晶 《小型微型计算机系统》 CSCD 北大核心 2007年第11期2074-2079,共6页
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上... 目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求. 展开更多
关键词 信息抽取语义模板概念扩充模糊语义
在线阅读 下载PDF
面向电子商务网站的产品属性提取算法 被引量:3
7
作者 李俊 陈黎 +2 位作者 王亚强 秦湘清 于中华 《小型微型计算机系统》 CSCD 北大核心 2013年第11期2477-2481,共5页
从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,... 从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法. 展开更多
关键词 商品评论 产品属性 抽取 HITS 抽取模板
在线阅读 下载PDF
基于统计年鉴和网络大数据的房屋竣工面积估算 被引量:2
8
作者 原雯 王君 +1 位作者 申鸿怡 王新民 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第5期804-814,共11页
选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存... 选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测。由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存在延迟,难以用模型拟合的方式对该年度竣工面积做出估计。因此,利用爬虫技术获取高质量数据,并深入挖掘网络数据中的信息,通过互联网大数据估算北京市房屋竣工面积。首先,建立基于网络大数据的建筑数据获取框架,通过调用服务接口和关键字搜索等技术,爬取北京地区8类建筑物的属性数据;然后,利用正则表达式和条件过滤,对网页返回的HTML非结构化数据进行抽取和清洗;最后,对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。 展开更多
关键词 竣工面积 回归分析 网络爬虫 模板抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部