-
题名生物特征识别技术综述
被引量:49
- 1
-
-
作者
郑方
艾斯卡尔.肉孜
王仁宇
李蓝天
-
机构
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
清华大学信息技术研究院语音和语言技术中心
清华大学计算机科学与技术系
江苏师范大学语言科学院
-
出处
《信息安全研究》
2016年第1期12-26,共15页
-
基金
国家自然科学基金项目(61271389
61371136)
国家"九七三"重点基础研究发展计划基金项目(2013CB329302)
-
文摘
基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术.为此,介绍了生物特征识别技术的基本原理、性能指标、关键技术、研究现状和技术应用等.全面调研了指纹、掌纹、虹膜、人脸、指静脉、声纹等不同的生物特征识别技术的研究现状,比较了各种生物特征识别技术在错误率、稳定性、实用性、处理速度和仿冒程度等方面的差异.此外,针对辨认和确认2种场景分别介绍了它们在各方面的应用情况,分析讨论了生物特征融合技术、生物特征安全性问题,介绍了该领域现有的行业和国家标准.最后对生物特征识别技术的发展前景给予展望.
-
关键词
生物特征识别
身份认证
指纹
声纹
人脸
掌纹
虹膜
指静脉
-
Keywords
biometric recognition
identity authentication
fingerprint
voiceprint
face
palmprint
iris
finger vein
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名声纹识别技术及其应用现状
被引量:54
- 2
-
-
作者
郑方
李蓝天
张慧
艾斯卡尔.肉孜
-
机构
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
清华大学信息技术研究院语音和语言技术中心
清华大学计算机科学与技术系
贵州大学科技学院
-
出处
《信息安全研究》
2016年第1期44-57,共14页
-
基金
国家自然科学基金项目(61271389
61371136)
国家"九七三"重点基础研究发展计划基金项目(2013CB329302)
-
文摘
随着信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题.与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、可靠.声纹识别作为当前最热门的生物特征识别技术之一,在远程认证等应用领域中具有独特优势,受到了越来越多的关注.以声纹识别技术及其应用现状为主线,将依次介绍声纹识别的基本概念、发展历程、应用现状及其行业标准化现状;综述声纹识别所面临的各类问题及其解决方案;最后对声纹识别技术以及应用的发展前景进行展望.
-
关键词
生物特征识别
身份认证
声纹识别
发展历程
技术应用
-
Keywords
biometric recognition
identity authentication
voiceprint recognition
development history
technology applications
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名言语信息处理的进展
被引量:3
- 3
-
-
作者
蔡莲红
贾珈
郑方
-
机构
清华大学计算机科学与技术系
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2011年第6期137-141,共5页
-
基金
国家自然科学基金资助项目(61003094,60928005,60805008)
-
文摘
该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。
-
关键词
言语识别
说话人识别
言语合成
言语知觉计算
-
Keywords
speech recognition
speaker recognition
speech synthesis
computational speech perception
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语谓词组合范畴语法词库的自动构建研究
被引量:4
- 4
-
-
作者
周强
-
机构
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第3期196-203,共8页
-
基金
国家重点基础研究发展计划(2013CB329304)
国家自然科学基金(61373075)
-
文摘
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
-
关键词
组合范畴语法
汉语谓词词库
多资源融合
-
Keywords
combinatory category grammar
Chinese predicate lexicon
multi-resources integration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大团的防骗贷算法研究
- 5
-
-
作者
梁宏宇
李通旭
-
机构
北京得意音通技术有限责任公司
清华大学信息技术研究院语音和语言技术中心
-
出处
《信息安全研究》
2017年第11期1017-1019,共3页
-
文摘
银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户的电话录音中提取用户的声纹特征,建立用户的声纹模型库,发现具有高相似度的声纹模型集,鉴别出冒充不同用户身份的骗贷者.最后测试并比较了基于GMM-UBM和i-vector模型的最大团防骗贷算法性能.
-
关键词
防骗贷算法
说话人识别
GMM-UBM算法
i-vector算法
最大团
-
Keywords
loan fraud algorithm
speaker recognition
GMM-UBM algorithm
i-vector algorithm
maximum clique
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名亲属关系的逻辑意义及其自动推理
被引量:8
- 6
-
-
作者
陈振宇
袁毓林
张秀松
周强
-
机构
复旦大学中国语言文学系
北京大学中文系/汉语语言学研究中心
清华大学信息技术研究院语音和语言技术中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第16期43-47,共5页
-
基金
国家高技术研究发展计划(863)(No.2007AA01Z173)
国家自然科学基金(No.60573185)~~
-
文摘
用一阶谓词逻辑设计了一个亲属关系的自动推理模型。首先,把亲属关系(称谓)视为谓词,相关的人物视为变元,把亲属关系和有关性质用"或"、"与"及"逆"等运算符号联结成亲属关系表达式。然后,选取11种基本的亲属关系作为亲属基元,并构造亲属基元转换和化简的九大定理,用以描写和定义其他一百多种亲属关系,从而形成亲属关系转换的核心知识库。最后,给出一种简洁的亲属关系转换算法,主要包括连接、求逆、化简和组配等运算。
-
关键词
一阶谓词逻辑
亲属关系
自动推理
亲属关系表达式
求逆
化简
-
Keywords
one-order predicate logic
kinship relations
automatic reasoning
expressions of kinship relation
converse
simplification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于大知识库的亲属关系自动推理模型
被引量:8
- 7
-
-
作者
陈振宇
袁毓林
张秀松
周强
-
机构
北京大学中文系汉语语言学研究中心
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期117-123,共7页
-
基金
国家社会科学基金资助项目(07AYY004)
国家高技术研究发展计划863计划资助项目(2007AA01Z173)
国家自然科学基金资助项目(60573185)
-
文摘
我们采用"大知识库—小运算"的技术路线,提出一个汉语亲属关系的自动推理模型。首先,在充分研究汉语亲属关系的词汇—语法表达的基础上,给汉语常见的亲属关系及其情景语义建立认知模型。然后,据此构造大型的汉语亲属关系知识库,包括外围知识库和核心知识库两种。前者详尽列举亲属名词和称呼动词所涉及的各种句式,并给出相应的语义表达式;后者包括三个子库:性质库(刻画亲属关系中的性别、长幼等属性)、逆判断库(刻画"父—子"等反对称关系对子)和传递库(刻画通过中介人把称呼人与被称呼人联系起来的各种路径,共计3 600余条)。在此基础上,形成了一个汉语亲属关系自动推理模型,可以在已知ABC三边关系的任意两边时快速地推导出未知的另一边关系。
-
关键词
计算机应用
中文信息处理
亲属关系
自动推理
认知模型
知识库
逆判断
传递路径
-
Keywords
computer application
Chinese information processing
kinship
automatic reasoning
cognitive model knowledge base
reverse expression
transfer path
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语块分析评测任务设计
被引量:9
- 8
-
-
作者
周强
李玉梅
-
机构
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2010年第1期123-128,共6页
-
基金
国家自然科学基金资助项目(60573185,60873173)
国家863计划资助课题(2007AA01Z173)
-
文摘
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。
-
关键词
计算机应用
中文信息处理
基本块
功能块
事件描述小句
块标注库
-
Keywords
computer application
Chinese information processing
base chunk
functional chunk
event description clause
chunk banks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名构建大规模的汉语事件知识库
被引量:2
- 9
-
-
作者
周强
王俊俊
陈丽欧
-
机构
清华大学信息技术研究院语音和语言技术中心
清华信息科学与技术国家实验室
清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2012年第3期86-91,103,共7页
-
基金
国家自然科学基金资助项目(60873173)
国家高技术研究发展计划资助项目(2007AA01Z173)
Tsinghua-Intel合作研究项目
-
文摘
该文提出了一种静态知识库和动态标注库相结合的汉语事件知识库构建方法。在统一的设计框架下,将相关事件知识拆分成五个相对独立的知识子库,并通过各子库之间的内在联系使之互相参照互为补充。经过有效拆分和信息联动,增强信息的丰富性和可靠性,同时细化工作的粒度,具有较好的可操作性。以此为基础,开发完成一个汉语"存在拥有类"事件知识库,其中静态知识库覆盖72个情境和1 548个词语义项,动态标注库包含598个事件目标动词的10万句标注结果,取得了较好的实验效果。
-
关键词
事件内容分析
事件语义标注资源
汉语事件知识库
-
Keywords
event analysis
event annotation
event knowledge base
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于话题链的汉语语篇连贯性描述体系
被引量:10
- 10
-
-
作者
周强
周骁聪
-
机构
清华信息科学与技术国家实验室(筹)
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2014年第5期102-110,共9页
-
基金
国家973计划(2013CB329304)
国家自然科学基金(61373075)
-
文摘
汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因果、转折四大类关系的汉语语篇连贯性描述体系。在清华句法树库TCT上进行的验证实验,发现话题链和关联词语分别覆盖了约76%和50%的汉语复句,并且两者经常同时使用,初步证明了这个体系在句子连贯性描述方面的可行性和有效性。
-
关键词
话题链
话题评述关系
连贯性描述体系
汉语语篇分析
-
Keywords
topic chain
topic-comment relation
coherence annotation scheme
Chinese text analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《知网》语义关系图的自动构建
被引量:4
- 11
-
-
作者
王宏显
周强
邬晓钧
-
机构
清华大学电子工程系
清华信息科学技术国家实验室技术创新与开发部语音和语言技术中心清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期90-96,共7页
-
基金
国家自然科学基金资助项目(60573185)
国家高科技研究发展计划资助项目(2007AA01Z173)
-
文摘
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。
-
关键词
计算机应用
中文信息处理
语义关系图
概念树
《知网》
-
Keywords
computer application
Chinese information processing
lexical semantic relationship graph
concept tree
HowNet
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词义类簇的文本聚类
被引量:2
- 12
-
-
作者
唐国瑜
夏云庆
张民
郑方
-
机构
清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心
资讯通信研究院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第3期113-119,共7页
-
基金
国家自然科学基金资助项目(61272233)
-
文摘
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。
-
关键词
文档聚类
文档表示
话题模型
-
Keywords
word sense
document representation
topic model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词嵌入的书面语篇多层次差异探究
被引量:2
- 13
-
-
作者
张学敬
吕学强
周强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京信息科学与技术国家研究中心
清华大学信息技术研究院语音和语言技术中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第23期142-149,共8页
-
基金
国家自然科学基金(No.61433018,No.61373075,No.61671070)
国家语委重点项目(No.ZDI135-53)
-
文摘
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。
-
关键词
独白语篇
对话语篇
词嵌入
多层次差异分析
-
Keywords
monologue text
dialogue text
word embedding
multi-level difference analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名自动构建基于电视剧字幕和剧本的日常会话基础标注库
被引量:1
- 14
-
-
作者
梁宇海
周强
-
机构
北京邮电大学
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2020年第1期23-33,共11页
-
基金
国家自然科学基金(61433018,61373075)。
-
文摘
真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对齐,从而将剧本中的场景和说话者信息映射到双语字幕中,最后得到含有场景及说话者标注的汉英双语日常会话库。该文利用这种方法,自动构建了包含978109对双语话语消息的接近人类日常会话的多轮会话数据库CEDAC。经过抽样分析,场景边界的标注准确率达到97.0%,而说话者的标注准确率也达到91.57%。该标注库为后续进行影视剧字幕说话者自动标注和多轮会话自动生成研究打下了很好的基础。
-
关键词
日常会话语料
电视剧剧本解析
双语字幕同步
剧本和字幕的自动对齐
-
Keywords
daily dialogue corpus
parsing of TV play scripts
synchronization of subtitles
automatic alignment between scripts and subtitles
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-