期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
搜索引擎索引网页集合选取方法研究
被引量:
9
1
作者
茹立云
李智超
马少平
《计算机研究与发展》
EI
CSCD
北大核心
2014年第10期2239-2247,共9页
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的...
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
展开更多
关键词
搜索引擎
内容签名
文本聚类
机器学习
线性回归模型
在线阅读
下载PDF
职称材料
中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用
被引量:
1
2
作者
无
刘奕群
+7 位作者
王小川
张敏
陈炜鹏
马少平
许静芳
毛佳昕
王蟒
马为
《中文信息学报》
CSCD
北大核心
2021年第6期F0003-F0003,共1页
随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧...
随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧密的校企合作建设了搜狗搜索引擎,致力于提供性能突出、自主可控、内容可信的搜索服务。
展开更多
关键词
中文信息处理
搜索引擎
国家信息安全
搜索服务
认知计算
搜狗
模型驱动
校企合作
在线阅读
下载PDF
职称材料
利用单语数据改进神经机器翻译压缩模型的翻译质量
被引量:
11
3
作者
李响
刘洋
+1 位作者
陈伟
刘群
《中文信息学报》
CSCD
北大核心
2019年第7期46-55,共10页
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获...
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了'负对数似然—知识蒸馏联合优化'教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。
展开更多
关键词
神经机器翻译
知识蒸馏
单语数据
在线阅读
下载PDF
职称材料
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
10
4
作者
龚鸣清
叶煌
+2 位作者
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指...
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
展开更多
关键词
ARMv8
单指令多数据流计算
基础线性代数子程序库
高性能计算
在线阅读
下载PDF
职称材料
神经机器翻译中英语单词及其大小写联合预测模型
被引量:
12
5
作者
张楠
李响
+1 位作者
靳晓宁
陈伟
《中文信息学报》
CSCD
北大核心
2019年第3期52-58,共7页
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方...
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到提升。在WMT 2017汉英新闻翻译任务测试集上,相比基线方法,该方法在大小写敏感和大小写不敏感两个评价指标上分别提高0.97BLEU和1.01BLEU,改善了神经机器翻译模型的性能。
展开更多
关键词
机器翻译
大小写恢复
联合预测
在线阅读
下载PDF
职称材料
面向互联网应用的图像LBP算法GPU并行加速
被引量:
1
6
作者
王香荣
高飞
+2 位作者
李钦
刘轶
张阔
《计算机工程与科学》
CSCD
北大核心
2013年第11期153-159,共7页
很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别...
很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别是针对海量图片处理设计加速方案,使GPU同时进行多幅图像LBP特征的并行提取,并采用异步传输方式使多幅图像数据的复制与Kernel函数的执行并行化。通过对GPU单幅和多幅图像并行处理的实验测试,并将实验数据与CPU程序性能进行对比分析,结果表明:对不同分辨率多幅图像并行处理的加速比可达58倍。
展开更多
关键词
GPU
局部二值模式
异步传输
互联网
在线阅读
下载PDF
职称材料
题名
搜索引擎索引网页集合选取方法研究
被引量:
9
1
作者
茹立云
李智超
马少平
机构
智能技术与系统国家重点实验室(清华大学)
清华信息科学与技术国家实验室(筹)
清华大学计算机科学与技术系
北京搜狗科技发展有限公司
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第10期2239-2247,共9页
基金
国家"九七三"重点基础研究发展计划基金项目(2015CB358700)
国家自然科学基金项目(60903107
61073071)
文摘
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
关键词
搜索引擎
内容签名
文本聚类
机器学习
线性回归模型
Keywords
model search engine
content signature
text clustering
machine learning
linear regression
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用
被引量:
1
2
作者
无
刘奕群
王小川
张敏
陈炜鹏
马少平
许静芳
毛佳昕
王蟒
马为
机构
清华大学
北京搜狗科技发展有限公司
不详
出处
《中文信息学报》
CSCD
北大核心
2021年第6期F0003-F0003,共1页
文摘
随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。2006年至今,清华大学与搜狗公司通过紧密的校企合作建设了搜狗搜索引擎,致力于提供性能突出、自主可控、内容可信的搜索服务。
关键词
中文信息处理
搜索引擎
国家信息安全
搜索服务
认知计算
搜狗
模型驱动
校企合作
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用单语数据改进神经机器翻译压缩模型的翻译质量
被引量:
11
3
作者
李响
刘洋
陈伟
刘群
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院大学
清华大学计算机科学与技术系
北京搜狗科技发展有限公司
语音交互技术中心
华为诺亚方舟实验室
出处
《中文信息学报》
CSCD
北大核心
2019年第7期46-55,共10页
基金
国家自然科学基金(61876174,61662077)
文摘
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了'伪双语数据'的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了'负对数似然—知识蒸馏联合优化'教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。
关键词
神经机器翻译
知识蒸馏
单语数据
Keywords
neural machine translation
knowledge distillation
monolingual data
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
10
4
作者
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
机构
中国科学院计算机网络信息中心
中国科学院大学
北京搜狗科技发展有限公司
出处
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
基金
国家重点研发计划项目(2016YFB0201100,2017YFB0202803)
国家自然科学基金资助项目(11871454,91630204,61531166003)
+1 种基金
中国科学院战略性先导科技专项(B类)(XDB22020102)
中国科学院信息化专项(XXH13506-204)~~
文摘
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
关键词
ARMv8
单指令多数据流计算
基础线性代数子程序库
高性能计算
Keywords
ARMv8
single instruction multiple data
basic linear algebra subprogram
high performance computation
分类号
TP332 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
神经机器翻译中英语单词及其大小写联合预测模型
被引量:
12
5
作者
张楠
李响
靳晓宁
陈伟
机构
北京
工业大学
北京
未来网络
科技
高精尖创新中心
中国科学院计算技术研究所
中国科学院大学
北京搜狗科技发展有限公司
出处
《中文信息学报》
CSCD
北大核心
2019年第3期52-58,共7页
文摘
英文中单词有大小写之分,如果使用不规范,会降低语句的可读性,甚至造成语义上的根本变化。当前的机器翻译处理流程一般先翻译生成小写的英文译文,再采用独立的大小写恢复工具进行还原,这种方式步骤繁琐且没有考虑上下文信息。另一种方式是抽取包含大小写的词表,但这种方式扩大了词表,增加了模型参数。该文提出了一种在神经机器翻译训练中联合预测英语单词及其大小写属性的方法,在同一个解码器输出层分别预测单词及其大小写属性,预测大小写时充分考虑源端语料和目标端语料上下文信息。该方法不仅减小了词表的大小和模型参数,译文的质量也得到提升。在WMT 2017汉英新闻翻译任务测试集上,相比基线方法,该方法在大小写敏感和大小写不敏感两个评价指标上分别提高0.97BLEU和1.01BLEU,改善了神经机器翻译模型的性能。
关键词
机器翻译
大小写恢复
联合预测
Keywords
machine translation
case restoration
joint prediction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向互联网应用的图像LBP算法GPU并行加速
被引量:
1
6
作者
王香荣
高飞
李钦
刘轶
张阔
机构
北京
航空航天大学中德联合软件研究所
北京搜狗科技发展有限公司
出处
《计算机工程与科学》
CSCD
北大核心
2013年第11期153-159,共7页
基金
国家863计划资助项目(2011AA01A205)
文摘
很多互联网应用需要进行海量的图片处理。LBP算法是一种图像纹理特征提取算法,广泛用于图像检索等领域,但该算法较为复杂,在处理互联网环境中的海量图片时面临着性能挑战。解决该问题的办法之一就是采用GPU对LBP算法进行并行加速,特别是针对海量图片处理设计加速方案,使GPU同时进行多幅图像LBP特征的并行提取,并采用异步传输方式使多幅图像数据的复制与Kernel函数的执行并行化。通过对GPU单幅和多幅图像并行处理的实验测试,并将实验数据与CPU程序性能进行对比分析,结果表明:对不同分辨率多幅图像并行处理的加速比可达58倍。
关键词
GPU
局部二值模式
异步传输
互联网
Keywords
GPU
local binary pattern
asynchronous transmission
Internet
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
搜索引擎索引网页集合选取方法研究
茹立云
李智超
马少平
《计算机研究与发展》
EI
CSCD
北大核心
2014
9
在线阅读
下载PDF
职称材料
2
中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之——认知计算模型驱动的互联网搜索技术及其应用
无
刘奕群
王小川
张敏
陈炜鹏
马少平
许静芳
毛佳昕
王蟒
马为
《中文信息学报》
CSCD
北大核心
2021
1
在线阅读
下载PDF
职称材料
3
利用单语数据改进神经机器翻译压缩模型的翻译质量
李响
刘洋
陈伟
刘群
《中文信息学报》
CSCD
北大核心
2019
11
在线阅读
下载PDF
职称材料
4
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019
10
在线阅读
下载PDF
职称材料
5
神经机器翻译中英语单词及其大小写联合预测模型
张楠
李响
靳晓宁
陈伟
《中文信息学报》
CSCD
北大核心
2019
12
在线阅读
下载PDF
职称材料
6
面向互联网应用的图像LBP算法GPU并行加速
王香荣
高飞
李钦
刘轶
张阔
《计算机工程与科学》
CSCD
北大核心
2013
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部