jTTS v5.0多语种语音合成平台技术白皮书
北京捷通华声语音技术有限公司北京捷通华声语音技术有限公司
20092009..1010
版本历史
时间版本号内容
2006-12-7 jTTS v5.0    1. 改进了韵律模型,获得更为准确的韵律
预测;
2. 高精确度的前端文本分析、韵律词和韵
律短语分析算法;
3. 改进的多音字分析算法;
4. 改进了数字、符号读法的自动判断处理。
5. 增加了声韵母拼接方案,考虑协同发音
等因素,增加了合成语音的流畅度
2007-1-31 jTTS v5.0.1.0    1.解决了领域/定制音库无法调到的问题;
2.对电话号码读法进行了改进,可以取代定
制音库来阅读电话号码;
3.二次校对拼音并重新生成了XiaoKun音
库,包括轻声、儿话、补充音节;
4.校对并更新了的基础词库,丰富了领域词
表;
5.针对领域电报读法进行了优化;
2007-2-9 jTTS v5.0.1.2    1.添加XiaoKun精简音库,容量从原来的
2.5G将为1.2G;
2.生成精简XiaoKun引擎;
3.修改了影响合成质量的7个问题与程序
中的隐藏bug;
2007-6-5 jTTS v5.0.1.3 添加ShuYi粤语音库
2007-8-10 jTTS v5.0.1.4 添加负载热备功能;
2007-11-1 jTTS v5.0.3.3 添加Chris美国英语引擎
2007-11-20 jTTS v5.0.3.4 添加GULIU韩语引擎
2008-1-10 jTTS v5.0.4.4 增加负载均衡功能;
2008-2-1 jTTS v5.0.5.4 增加MRCP2.0服务器
2008-8-10 jTTS v5.5.2008.0810 增加jTTS_Java组件
2009-2-3 jTTS v5.5.2008.0203 增加jTTS Web Service支持
2009-10-23 jTTSv5.0.2009-5-18    1 jTTS 产品层Windows和Linux版本代码
合并;
2 在合成服务器端增加语音缓冲功能;2009-10-2
3 jTTS v5.0.2009.1023 增加ZhangNan音库;
目录
一、背景 (1)
1.1 公司简介 (1)
1.2 产品背景 (1)
1.3 公司的发展历程 (2)
二、jTTS语音合成系统 (4)
2.1 jTTS简介 (4)
2.2 jTTS特点 (4)
三、jTTS体系结构 (5)
3.1 核心的系统结构 (5)
世界语种3.1.1 jTTS_ML.DLL (5)
3.1.2 jTTS5.OCX (5)
3.1.3 核心引擎 (6)
3.1.4 外挂DLL (6)
3.1.5 jTTS服务 (7)
3.2 产品体系结构 (7)
3.3 jTTS配置工具 (8)
3.3.1 jTTS语音合成服务器配置工具 (8)
3.3.2 jTTS 语音服务器管理工具 (9)
3.3.3 jTTS词库维护工具 (10)
3.3.4 jTTS系统检查工具 (11)
3.3. (12)
3.4 jTTS v5.0.1 (Windows)技术指标 (12)
3.5 其他语种引擎 (13)
四、产品特点 (13)
4.1 jTTS API 4.0 (13)
4.2 中文引擎的特点和改进 (14)
4.2.1 多语种,适应不断发展的业务需求 (14)
4.2.2 多音,满足不同环境的个性化应用 (14)
4.2.3 多领域支持 (14)
4.2.4 智能文本预处理和分析的改进 (15)
4.2.5 数字、短语文本合成效果显著提升 (15)
4.2.6 对SSML的支持 (15)
4.2.7 支持背景音混合 (16)
4.2.8 支持MRCP (16)
4.2.9 支持负载均衡及双机热备 (17)
4.2.10 jTTS_Java组件 (17)
4.2.11 jTTS Web Service (17)
4.2.12 语音缓存 (18)
五、语音市场新一代动力引擎jTTS v5.0.1 (18)
六、演示环境 (18)
一、背景
1.1公司简介
北京捷通华声语音技术有限公司成立于2000年10月,主要致力于中文语音技术的开发和应用。作为一家专业的语音技术公司,短短几年间,公司推出了具有国际领先水平的捷通华声语音合成技术,在与同类技术的竞争中取得了领先的地位,并已成为语音技术领域知名的软件厂商。
捷通华声的核心技术(jTTS)是具有自主知识产权的中文语音合成技术,积累了十多年来中科院声学所
相关领域的研究经验,目前在国际上处于领先地位,并已申请多项国家专利。围绕jTTS核心技术,捷通华声还推出了一系列的解决方案,形成了涵盖CTI行业应用、桌面级应用、嵌入式应用、互联网应用等各个领域的产品体系,并率先在电信、电力、烟草、教育、政府、、语音门户等领域得到了广泛的应用,且已销往美国、日本、新加坡等海外市场,以其接近真人的合成效果和很高的系统稳定性在业界享有很高的知名度。
语音是人类交流最自然、最方便的手段,因而也必然成为人机交互最自然、最方便的手段之一。捷通华声秉承这一理念,将通过不懈的努力来追求语音技术的不断完善,为提供自然、方便和理想的人机交互技术而奋斗。
1.2产品背景
让机器能听会说,是人类由来已久的理想。在世界上第一台计算机的诞生之日,人们就提出了要让计算机听懂人的话并且能够说话。
语音合成技术即TTS,简单讲就是让计算机“开口讲话”,是利用计算机将任意组合的文本文件转化为声音文件,并通过声卡、电话语音卡等多媒体设备将声音输出,也即将任意的文本自动转换成为语音信息播放给用户。如今,随着语音合成技术研究的突破,其对计算机发展和社会生活的重要性日益凸显出来。以语音合成技术开发出来的各种应用软件产品,几乎深入到社会的各个行业之中。
捷通华声自创建以来,始终集中精力专注于中文语音核心技术产品的研制与开发,在国内语音界不断创新,创造国内语音技术产品研究、开发、应用多项第一。捷通华声多次被列入国家级科技计划,是国内最重要的中文语音研究开发与产业化力量之一,强力促成中文语音合成技术在各行各业的商品化应用,目前已发展成为国内推动语音产业发展最重要的语音技术开发供应商之一。通过多年的技术积累,凭借对汉语语音合成技术以及汉语韵律知识
的了解方面具有独特的认知,基于大规模录音音库的波形拼接算法和对汉语韵律特征建模的
《jTTS v5.0.1多语种语音合成平台产品》作为捷通华声引领语音技术与市场发展的新一代主流语音合成产品,将为自助语音服务提供源源不断的核心动力。
1.3公司的发展历程
2000.10 北京捷通华声语音技术有限公司成立,由我国知名语音专家吕士楠教授出任首席科学家
2000.10 捷通华声推出适合中小企业和窗口单位的一套小型电话查询系统,Visual CTI -智能电话语音中心
2001.06 捷通华声利用语音合成技术和网络流媒体技术的结合,成功推出国内第一个“语音网站”(www.sinovoice)
2001.07 捷通华声隆重推出具有国际领先水平的最新版本jTTS世纪版,这是国内第一家基于大容量真实录音库和韵律层级分析技术的TTS技术,在自然度和流畅度上
达到了一个崭新的水平,在与国内外相关技术的竞争中取得了领跑地位。jTTS
世纪版标示着中国中文语音合成技术开始进入商品实用化阶段
2002.03 捷通华声推出jTTS技术3.0版,除进一步提高自然度外,特别针对网络合成方案做了较大的改进,提高了系统的稳定性和易用性,使捷通华声TTS技术更适
用于电信级等大规模使用的需要
2002.07 捷通华声推出嵌入式TTS的GPS定制版本,并在武汉长江卫星的“eCar易凯汽车导航系统”中获得应用,在国内率先实现了卫星语音导航设备中应用语音合成
技术
2002.10 捷通华声推出语音合成金融证券版,针对金融证券领域的专业术语和词汇做了专门处理,大大提高了在金融证券领域的语音合成自然度
2002.12 捷通华声加快战略合作步伐,强强联手,取得美国高通与中国联通合作项目“BREW”的独立开发人资格,正式进军电信增值服务领域
2003.01 针对特定领域的语音合成技术需求,捷通华声率先在国内推出定制化语音技术服务
2003.03 针对TTS技术在嵌入式系统中的应用,捷通华声推出了“语音合成硬件解决方案-jTTS DSP”
2003.03 经过北京市科委等众多专家组的严格评测,捷通华声击败国内所有竞争对手,一举中标北京十大科技奥运重点项目子课题之一的《面向奥运的多语种语音合
成产品研制》项目
2003.10 捷通华声进一步加强国际化合作,先后与国际语音企业——法国ELAN公司和
美国Scansoft公司、马来西亚Nusaura公司结成战略合作伙伴关系,就共同推动