-
题名利用人类计算技术的语音语料库标注方法及其实现
被引量:2
- 1
-
-
作者
沈映泉
刘勇进
蔡骏
史晓东
-
机构
厦门大学智能科学与技术系
Groupe Parole
-
出处
《智能系统学报》
2009年第3期270-277,共8页
-
基金
国家留学基金资助项目(2006104705)
福建省自然科学基金资助项目(2006J0043)
厦门大学"985工程"二期信息创新平台资助项目(0000-X07204)
-
文摘
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
-
关键词
语音语料库标注
人类计算
分布式知识获取
基于Web的语言学习
-
Keywords
speech corpora transcription
human-computation
distributed knowledge acquisition
Web-based language learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据群体计算中用户主题感知的任务分配
被引量:12
- 2
-
-
作者
张晓航
李国良
冯建华
-
机构
清华大学交叉信息研究院
清华大学计算机系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期309-317,共9页
-
基金
国家自然科学基金项目(61373024
61472198)
国家"九七三"重点基础研究发展计划项目(2015CB358700)
-
文摘
大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战.一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求;另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术.针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,传统的基于计算机的算法已经无法满足日益苛刻的数据处理要求,而基于人机协作的群体计算是有效的解决途径.在大数据群体计算中,最基础的就是任务的分配方式.考虑到大量网络用户不同的专业背景、诚信程度,因此不能简单随机地将要处理的任务交给大众来完成.针对此问题,提出了一种基于用户主题感知的迭代式任务分配算法.利用已知答案的测试问题迭代地检测不同人群的专业背景和完成任务的准确率.在充分了解用户真实主题和准确率的情况下为他们分配合适的问题.通过和随机任务分配算法在模拟数据和真实数据上的对比,有效显示了基于主题感知任务分配算法的准确性.
-
关键词
群体计算
人类计算
大数据
众包
人机结合
-
Keywords
crowd computing
human computation
big data
crowdsourcing
human - computer interaction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CAPTCHA的中文安全机制的研究
被引量:6
- 3
-
-
作者
金海坤
杜文杰
沙俐敏
-
机构
上海交通大学软件学院
上海师范大学
上海第二工业大学计算机与信息学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第6期985-987,共3页
-
文摘
随着越来越多的“网络机器人”在Internet上活动,网站的安全性问题显得越来越严峻。全自动人机识别系统(CAPT-CHA),一个让人类能够通过测试,而当前的计算机不能通过的程序出现了。它的原理建立在未解决的人工智能问题领域。通过对几种在实际安全应用中的不同CAPTCHA结构的考察,描述了它们的原理、模型和优缺点,并结合我国情况,提出了基于中文文字识别的CAPTCHA模型,详细描述了在中文CAPTCHA编程设计中的实现策略。
-
关键词
全自动区分计算机和人类的图灵测试
文字识别
图像处理
图灵
-
Keywords
CAPTCHA
character identification
dealing with imaging
turing
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-