题名 基于统计韵律模型的汉语语音合成系统的研究
被引量:7
1
作者
陶建华
赵晟
蔡莲红
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《中文信息学报》
CSCD
北大核心
2002年第1期1-6,共6页
基金
国家自然科学基金 (6 9875 0 0 8)
文摘
本文论述了采用统计模型进行汉语韵律层级结构分析和韵律建模的思路 ,在此基础上建立了汉语语音合成系统。其中 ,本文还仔细阐述了韵律代价函数的构造 ,及其参数的自动训练算法。同时 ,论文还分析了韵律特征间相互作用对音节基元选取的影响 ,并最终实现了一个连续语流中用于汉语语音合成的音节基元选取模型。测试表明了本文提出的基于统计模型的韵律层级分析和韵律建模思路 ,能够较好应用于汉语语音合成系统的构造 。
关键词
汉语韵律层级结构
韵律建模
韵律代价函数
语音合成系统
Keywords
Chinese Prosodic Hierarchy
Prosody Modeling
Prosody Cost Function.
分类号
TN912.33
[电子电信—通信与信息系统]
题名 虚拟空间会议系统的基于感知的视频传输方案
被引量:2
2
作者
李凌
田淑珍
孙立峰
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机应用研究》
CSCD
北大核心
2004年第4期209-211,共3页
文摘
提出虚拟空间会议系统中一种基于感知控制的视频传输方案。
关键词
虚拟空间会议
感知
视频传输
Keywords
Virtual Space Teleconference (VST)
Awareness
Video Transmission
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于方向特征的二值商标图像检索方法
被引量:10
3
作者
郭丽
黄元元
孙兴华
杨静宇
机构
南京理工大学 计算机 系
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机应用》
CSCD
北大核心
2003年第7期77-79,共3页
文摘
文中针对二值商标图像,提出一种基于方向特征的商标图像检索方法。用边界方向直方图表示目标的边界方向特征,图像的相似性度量采用直方图求交算法;用区域方向直方图表示目标的区域方向特征,图像的相似性程度用直方图的相关距离来度量。这两者结合起来得到的方向特征可以同时反映图像的整体形状和轮廓形状。实验表明,方向特征能够有效地描述图像的形状及空间分布信息,取得了令人满意的检索结果。
关键词
商标图像检索
方向特征
方向信号
区域方向直方图
边界方向直方图
Keywords
trademark image retrieval
direction feature
direction signal
region direction histogram
edge direction histogram
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 一种基于连通域的版面分割方法
被引量:7
4
作者
郭丽
孙兴华
王正群
杨静宇
机构
南京理工大学 计算机 科学系
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第5期105-107,共3页
文摘
版面分割是版面分析的重要组成部分,是一个受到广泛关注的研究课题。该文提出了一种基于连通域的版面分割算法,首先对文档图像进行倾斜校正,然后采用模糊处理以得到较大的连通单元,再根据区域连通的特性进行版面分割和处理。实验表明,基于连通域的算法分割版面准确,速度快,适用范围广,不仅可用于矩形版面,对于非Manhattan版面等复杂版面也能取得令人满意的效果。
关键词
连通域
版面分割方法
版面分析
动态聚类法
图像模糊
印刷体文字识别系统
Keywords
layout analysis,connective region,dynamic clustering method,image smearing,page segmentation
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
题名 视频文本的自动提取方法
被引量:5
5
作者
郭丽
孙兴华
黄元元
杨静宇
机构
南京理工大学 计算机 系
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第6期1086-1088,共3页
文摘
提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区域的边界 ,最后对文本区进行确认 .实验表明 ,本文的视频文本自动提取方法具有较高的文本提取率和较准确的边界定位 .
关键词
彩色边缘检测
游程平滑
视频文本提取
图像文本
场景文本
Keywords
color edge detection
run-length-smearing
video text extraction
graphic text
scene text
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 信息家电网络控制平台SOPCA
被引量:2
6
作者
冼伟铨
祁妍军
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2000年第11期1159-1161,共3页
文摘
本文对信息家电网络控制平台 SOPCA的硬件环境和设备驱动的实现进行了研究 .SOPCA的硬件设备采用IBM Red Wood III机顶盒平台 ,其核心是数字 STB集成控制芯片 STB0 1X0 .Sopca软件系统有较好的模块化和可移植性处理 ,在其设备驱动设计部分 ,我们给出了解码功能的一个示例的实现 .
关键词
信息家电
网络控制平台
SOPCA
多媒体
Keywords
Home network control platform
SOPCA
Hardware environment
Device driver
分类号
TM925
[电气工程—电力电子与电力传动]
TP37
[自动化与计算机技术—计算机系统结构]
题名 合成语音自然度客观测度
被引量:2
7
作者
赵博
蔡莲红
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《计算机工程与应用》
CSCD
北大核心
2005年第7期32-33,152,共3页
基金
国家自然科学基金项目(编号:60275014)
文摘
目前合成语音的自然度有待提高,论文根据目前的研究现状提出了一种合成语音自然度的客观评价方法,该方法主要从语音韵律特征的主要参数出发,计算同一发音人的自然语音和合成语音之间的基频、时长、音强等参数的差距,其中由于两种语音基频时间不匹配,所以采用DTW(Dynamic Time Warping)算法来对两种语音的基频进行了时间弯折对准。最后再将计算结果与主观评测(MOS)的结果进行比较。实验数据表明,论文提出的基频曲线失真测度与MOS之间具有很强的相关性,从韵律特征角度给出的评价结果能够衡量合成语音的自然度。
关键词
语音合成
评测
自然度
Keywords
speech synthesis,evaluation,naturalness
分类号
TP37
[自动化与计算机技术—计算机系统结构]
题名 全局运动估计及其在视频编码中的应用
8
作者
贺玉文
赵学军
杨士强
钟玉琢
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《高技术通讯》
EI
CAS
CSCD
2001年第8期40-43,共4页
基金
863计划 (863 3 0 6 ZT0 4 0 2 1)资助项目
文摘
对全局运动估计进行了研究 ,并提出了它的改进算法。在有局部运动的情况下 ,改进算法的计算速度和准确性都有明显提高。研究了全局运动估计在视频编码中的应用。在视频压缩中它是spirte编码的关键技术 ,这种技术较之传统编码方法有较好的编码性能。利用MPEG 4的软件测试平台进行了MPEG 4校验模型中已有算法的实验比较 ,结果表明 ,改进的全局运动估计的计算速度明显提高 。
关键词
视频编码
全局运动估计
运动补偿
视频压缩
spirte编码
MPEG-4
Keywords
Video coding, Global motion estimation, Motion estimation, Motion compensation
分类号
TN919.81
[电子电信—通信与信息系统]
题名 IBM机顶盒控制器Romeo中解复用器的设计
9
作者
黄文东
钟玉琢
沈洪
机构
清华大学计算机系人机交互与媒体集成研究所
出处
《小型微型计算机系统》
CSCD
北大核心
2002年第5期513-516,共4页
基金
国家信息产业部重点科研攻关项目
文摘
本文以 IBM机顶盒控制器 Romeo中的解复用器为例 ,在概述其硬件结构的基础上 ,详细介绍了它们的功能与控制 .文中将有关内容划分为三个方面 :pid过滤 ,数据提取 (其中主要是队列和过滤器 )和中断 。
关键词
IBM
机顶盒控制器
ROMEO
解复用器
设计
电视机
数字信号
Keywords
Mpeg 2 transport stream
STB
demultiplexor
data retrieval
section
分类号
TN948.64
[电子电信—信号与信息处理]
TN915.05
[电子电信—通信与信息系统]