此页面内的部分配图为编写者本人文件,切勿二次使用
歌声合成技术是一种利用计算机算法和数字信号处理技术,将人声、乐器等音频信号进行分析、处理和合成,生成与人类声音类似的音频信号的技术。 它可以模拟人类的歌唱声音,实现人工合成歌声,并且可以根据设定的旋律和歌词进行自动合成。
2003年3月5日,日本公司Yamaha在德国法兰克福乐器展上公开了一款拥有“歌声合成”功能的名叫“VOCALOID”的程序。
2007年8月31日,由Crypton Future Media以雅马哈的Vocaloid系列语音合成程序为基础开发的音源库(cv:藤田咲)。
初始之音,响彻未来
一款由饴屋/菖蒲(饴屋P)开发制作的免费闭源歌声合成软件,在最初是为了辅助人力VOCALOID制作而制作的软件。
2008年03月06日发布时最初的名字为:炉利音声音编辑软件(Loliedit),后于3月15日改为现名,名字来源于日语“歌う”(歌唱)。
在2011年7月16日,中文V3初次提出概念。
而在2012年1月17日,征集结果公布:雅音宫羽(by MOTH)、绫彩音(by ハオ)、牙音(by aya)、MOKO(by再音saku)、蝶音(byHANS)。
随后同年3月22日,VOCALOID CHINA PROJECT官方形象公布:雅音宫羽→洛天依、绫彩音→乐正绫、牙音→乐正龙牙、MOKO→徵羽摩柯、墨清弦。6月,洛天依信息正式发布。
华风夏韵,洛水天依
Synthesizer V(简称 Synth V 或 SV)是由以华侃如(Kanru Hua)为首的 Dreamtonics Co,. Ltd.开发的歌声合成引擎及编辑器软件(V表示第5次架构迭代)。该引擎采用了自主研发的基于人工神经网络及拼接合成算法的 LLSM(底层语音模型)技术,仅使用少量采样数据即能生成自然的声音。
一款在手机上的歌声合成软件
CeVIO的诞生源自于创作者团体,也就是V-Sync和Frontier Works这两家公司共同开发,技术方面主要是Techno-speech来担任。而Techno-speech是进行着最前端的TTS研究的名古屋工业大学内的创业公司。
CeVIO AI 搭载了CeVIO项目开发的歌声和语音合成技术,可以利用最新的AI技术以前所未有的准确度再现人类的语音质量、习惯、唱歌和说话,是一款全新的声音创作软件。 CeVIO AI不仅可以真实地再现人类的歌声和说话的声音,而且具有易于使用的图形界面,可以自由编辑音高、发音时长等,为声音创作开辟新的可能性。
VoiSona作为一款能够真实再现人类歌声的 AI 歌唱软件,其名称是由“Voice”(声音)和“Persona”(人格、魅力)结合而成,蕴含着通过声音展现多样个性的理念。该软件以テクノスピーチ多年积累的 AI 技术为基础,实现了 Windows/macOS 双系统兼容,以及 VSTi/Audio Units 对应等功能,使其更加易用,能够满足专业需求。软件默认附带具有中性魅力声音的日语歌手「知声」,同时还包含简易的独立应用程序,即使没有 VSTi/Audio Units 对应的 DAW,用户也可以使用。使用「VoiSona」和「知声」输出的语音波形数据,在个人/法人、商用/非商用的情况下,除部分例外情况外,原则上可以免费使用。
Voisona与CeVio曾属于同源。Techno-Speech公司为了追求突破CeVio的框架的限制,独立开发了Voisona来追寻更多的可能性。不同的是CeVio的工程保存文件为css,而Voisona的工程保存文件为tssln。
TTS是Text to speech的略称,就是音声合成(或语音合成)。
我们在上文说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。像VOICEROID这样的语音特化的音源也被称作是TTS。
VC是Voice conversion的简称,也就是文本转语音。保留文本的内容,而对语音进行替换,
SVS是Singing voice synthesis的简称,也就是歌声合成。据歌词和乐谱信息合成歌唱。相比于TTS使机器“开口说话”,歌唱合成则是让机器唱歌。
我们可以通过最近的浙江大学,北京大学和腾讯AI实验室(Tencent AI Lab)的一则文献来大概了解一下原理


顺带一提,虽然目前市面上大多数的编辑软件的原理都是运用了TTS,但部分编辑器例如CeVIO AI则是使用了DNN(deep neutral network,深层神经网络)或者CNN(convolution neutral network,卷积神经网络)的方法。简单而言,该系统使用计算机根据录制的声音创建「歌手个性」的模型,来让模型的歌唱更贴近真人。而像VOCALOID并没有使用DNN或是CNN这样的统计模型,只是采用了将各处的发音对应的波形连接的波形连接型声音合成(即传统的拼接声库)。不过值得一提的是,V6已经搭载了DNN学习功能,意味着我们也能在VOCALOID中使用AI声库了。
这两项技术并没有高低之分。你也许会使用DNN来追求极致的人声还原,使用自己喜爱的歌姬来还原真人歌唱的感觉,但例如“初音未来的消失”这样的曲子则不能通过DNN的形式来完成歌唱。传统的TTS形式可以完成更加灵活多变的演唱需求。
使用的宿主从来没有高低之分,百花齐放是最好的
VOCALOID的界面比下列的编辑器界面较为复杂多样一些,不过VOCALOID非常贴心详细地准备了VOCALOID的用户入门手册,我们只需要通过阅读该手册就可以很好的入门VOCALOID编辑器。用户入门手册可以在VOCALOID官网就可以查询,因此我在下文只进行一些必要的名词解释。

VOCALOID的参数设计拥有更多细致化的操作。
值得一提的是,我们可以在VOCALOID v6及以上的版本中选择不同的歌声合成方式。

我们需要先通过认证码进行认证,激活sv的编辑器界面声库
——歌声 一栏则选择加载你拥有的歌姬的声库模型。

选择歌姬完成之后,我们就可以开始进行创作了!
sv的编辑器导出方式有些特别,需要在右侧一栏中选择“渲染”,将你的作品进行导出

这是正常使用界面,让我们从第一步开始

开始打开宿主之后,你会收到一个弹窗让你进行验证,输入你购买的编辑器的代码之后,接下来会让你继续输入你所购买的歌姬的代码。不购买歌姬单独购买编辑器是无法使用整个CeVIo软件的。输入代码之后,软件会自动下载声库,只需要等待下载即可。
选择声库之后,一般会有对应音高,嘶哑(husky),音调(tune)和发声标准音高(pitch)
第一个音高对应的是影响歌姬的音色,提升以获得更浑厚成熟的声音,降低以获得更幼年尖细的声音。
在进行歌词的输入时,可以在假名的背后加注特殊符号来获得对应的歌唱效果:例如假声,颤音等一系列效果
(注:请确保输入特殊符号之前已切换英文键盘,否则编辑器将无法识别)
以下为部分CeVio歌姬的特殊符号效果,更多内容请查阅《CeVio用户手册》


与以上编辑器不同的是,Voisona的本体使用并不需要购买,只需要在官网进行下载即可。在编辑器中有自带的声库——知声(Chis-A)

使用Voisona之前,只需要在官网进行账号注册,并在编辑器中绑定你的邮箱即可。

值得一提的是,也许是因为CeVio和Voisona曾是同源的原因,我们依然能够使用CeVIo的特殊符号编辑功能来编辑Voisona当中的效果。
我们可以通过右键目标音符来选择特殊发声效果。
在上文我们提到,cevio与voisona的制作公司是同一家, 因此cevio的文件(css)可以使用voisona打开,而voisona的文件(tssln)也可以使用cevio打开。
注意,如果使用的歌姬是同一个,歌手的歌唱特点无法与目标宿主保持一致,依然需要精调。
OpenUTAU是一款本体和绝大部分声库完全免费的歌声合成软件,是由杉田朗主导、由UTAU社区为UTAU社区打造的免费开源歌声合成编辑器。简单的说,可以视为UTAU的升级版
OpenUTAU具备UTAU的所有功能及一些UTAU社区插件的功能,因此如果需要使用UTAU声库,编写者推荐直接使用OpenUTAU
可以在OpenUTAU官网获得软件下载地址,另附wiki,讨论组,详细教程等链接。OpenUTAU目前支持Windows,Mac,Linux,并即将支持Android
在官网获取适合自己系统的软件安装包并进行安装后,点开OpenUTAU,以Windows系统为例,如果看见这样的画面

恭喜,已经成功安装了OpenUTAU本体
但距离真正使用,还需要做一些其他的准备
只有安装了声库,OpenUTAU才能发声
最著名的重音Teto UTAU声库可以在TetoUTAU声库下载链接获取到(需要合适的网络环境)。如果打算使用Teto进行创作,推荐使用OpenUTAU用日本語統合ライブラリー。如果想要使用其他声库,前往那个声库的配布地址进行下载即可
所有的声库都可以直接将声库下载至桌面或任何位置并在安装后进行删除,OpenUTAU会自动在OpenUTAU的文件中留存一份
、
注意OpenUTAU界面的左上角,点开当中的 工具 安装歌手...

在弹出的文件浏览器里选择刚才下载的声库文件(因网络问题此处编写者使用其他声库作为演示,重音Teto在内其他的所有声库同理)。选择正确的编码,使文件名看起来是正确可读的(这很重要!)。对于日文声库,一般选择Japanese(Shift-JIS)即可。在这之后点击下一步

下一步同理,选择正确的编码,使文件名看起来是正确可读的,随后安装即可
在此之后,如果能在 工具 歌手... 中找到刚才你所安装的声库,则安装成功

点开界面上显示的 选择歌手 ,在弹出的界面中选择你需要使用的声库并鼠标左键单击轨道视窗以创造一条调声Part

鼠标左键双击粉色的调声Part以进入调声界面

左键单点 → 创建一个音符 / 选中一个音符
右键对音符单点 → 音符功能菜单
右键点击空白处 → 取消选中
光标移动至音符头尾并左键长按 → 更改音符长度
左键双击 → 修改歌词
滚轮 → 调整可视的音高
Ctrl+左键长按拖拽 → 多选
空格 → 播放
选中一个音符,按Tab呼出/隐藏菜单,在右下角的位置即可看见“表情”选项
(注:以下的所有注释仅代表编写者调声时的个人理解,可能与实际功能或官方定义有所出入)
Voice Color:对于整合声库,可以在此处选择同一发音的不同感情/唱法
Resampler Engine:引擎混用的选项,无特殊需要则勿调整
Velocity:速度,可以理解为辅音与元音过渡的速度
Volume:音量
Attack:力量,越高的值则越有爆破音的感觉
Decay:渐弱
Gender:性别,可以调整声库的音色,类似共振峰
Breath:气音/气噪
Lowpass:低通滤波,高频随此数值的增加而削弱
Modulation:可以理解为自动调教
Alternate:调用替代采样,在单音采样出现问题时可以使用
Direct:开启此选项的音符完全不修改采样(包括音高,长度,所有属性)
Tone Shift:音高偏移
决定OpenUTAU调声效果的,除了声库和参数以外,最重要的就是“引擎”
不同的引擎会以不同的方式对采样进行渲染,同样的无参工程,仅仅更换引擎就可以让听感产生极大的变化。OpenUTAU自带WORLDLINE-R引擎和Classic引擎
引擎同声库一样可以安装,在此处仅简单说明OpenUTAU自带引擎之间的差别
Classic:支持所有表情,无参效果略差于WLR,需要更精细的调整,无参状态下渲染更有力量感,不支持部分声库的罗马音输入。建议在具有一定调教技术后使用
WLR:只支持部分表情,无参保证效果下限,但上限很低,适合新手微参使用,建议趁早进行更换,不要产生依赖
在看完这些基本介绍和操作教程之后,应该可以顺畅的使用OpenUTAU进行基础调声了
在输入歌词时,如歌词中的“を“ 无法很好地进行标准发音(通常会被误发成“o”音)”时,则可以使用“うぉ”来替代(编辑器会强化“wo”的发音强度)
当歌词中遇到连音,长音或强化辅音发音时无法正确表达时,可以试着调整时间(tmg),或者是音量(vol)值来进行处理;或者可以将原有的单词内加入い(i) う(u) お(o) ん(n)等尾音来强化连接音的效果,或用来平衡长音带来的发音偏移问题。歌词编辑时更多应注重发声的正确与否而不是歌词拼写的正确与否。
想让歌词中的音素只发辅音部分吗?在目标音符后添加“ ' ”即可(注意使用英文键盘),如果对效果不满意可以尝试直接在时间(tmg)中直接调节,延后元音的发音或直接去除元音的发音时间
“ん”的尾音鼻音过重?试试右键歌词中的音素选项,将“N”改为“n”(大小写区别),有时可以减轻过重的鼻音现象(尤其是低音)
想要模仿rap效果?试着编辑音高界面,将目标音高从上一个音符的音高或原有音符的音高开始,把音高拉低至原有音高的四度以下,并控制降低音高的起始位置要稍早于当前歌词发声的结束时间。
要想让歌姬有循序渐进的歌唱效果?试着将歌唱开头的发音音高降低三度,并略微晚些将音高恢复至原有音高(左低右高型波浪线)。
让歌姬更加接近真实人声的方法?试试可以通过自己亲自演唱,录音并找寻自己发声时的特点,为歌姬的发声时间和音高进行更加合理的修改。试着改变吸气与呼气时间(尤其是采用使用了DNN的声库时)。歌唱时的尾音,以及高音部分可以通过音高(pit)界面自行绘制波浪线以获得颤音效果,或直接通过颤音(vib)界面进行更直接的调整来获取人歌唱时所体现的“不稳定感”。刻意创造适当的瑕疵也是体现人类的歌唱的一种方式。