此页面内的部分配图为编写者本人文件,切勿二次使用
歌声合成技术是一种利用计算机算法和数字信号处理技术,将人声、乐器等音频信号进行分析、处理和合成,生成与人类声音类似的音频信号的技术。 它可以模拟人类的歌唱声音,实现人工合成歌声,并且可以根据设定的旋律和歌词进行自动合成。
2003年3月5日,日本公司Yamaha在德国法兰克福乐器展上公开了一款拥有“歌声合成”功能的名叫“VOCALOID”的程序。
2007年8月31日,由Crypton Future Media以雅马哈的Vocaloid系列语音合成程序为基础开发的音源库(cv:藤田咲)。
初始之音,响彻未来
一款由饴屋/菖蒲(饴屋P)开发制作的免费闭源歌声合成软件,在最初是为了辅助人力VOCALOID制作而制作的软件。
2008年03月06日发布时最初的名字为:炉利音声音编辑软件(Loliedit),后于3月15日改为现名,名字来源于日语“歌う”(歌唱)。
在2011年7月16日,中文V3初次提出概念。
而在2012年1月17日,征集结果公布:雅音宫羽(by MOTH)、绫彩音(by ハオ)、牙音(by aya)、MOKO(by再音saku)、蝶音(byHANS)。
随后同年3月22日,VOCALOID CHINA PROJECT官方形象公布:雅音宫羽→洛天依、绫彩音→乐正绫、牙音→乐正龙牙、MOKO→徵羽摩柯、墨清弦。6月,洛天依信息正式发布。
华风夏韵,洛水天依
Synthesizer V(简称 Synth V 或 SV)是由以华侃如(Kanru Hua)为首的 Dreamtonics Co,. Ltd.开发的歌声合成引擎及编辑器软件(V表示第5次架构迭代)。该引擎采用了自主研发的基于人工神经网络及拼接合成算法的 LLSM(底层语音模型)技术,仅使用少量采样数据即能生成自然的声音。
一款在手机上的歌声合成软件
CeVIO的诞生源自于创作者团体,也就是V-Sync和Frontier Works这两家公司共同开发,技术方面主要是Techno-speech来担任。而Techno-speech是进行着最前端的TTS研究的名古屋工业大学内的创业公司。
CeVIO AI 搭载了CeVIO项目开发的歌声和语音合成技术,可以利用最新的AI技术以前所未有的准确度再现人类的语音质量、习惯、唱歌和说话,是一款全新的声音创作软件。 CeVIO AI不仅可以真实地再现人类的歌声和说话的声音,而且具有易于使用的图形界面,可以自由编辑音高、发音时长等,为声音创作开辟新的可能性。
VoiSona作为一款能够真实再现人类歌声的 AI 歌唱软件,其名称是由“Voice”(声音)和“Persona”(人格、魅力)结合而成,蕴含着通过声音展现多样个性的理念。该软件以テクノスピーチ多年积累的 AI 技术为基础,实现了 Windows/macOS 双系统兼容,以及 VSTi/Audio Units 对应等功能,使其更加易用,能够满足专业需求。软件默认附带具有中性魅力声音的日语歌手「知声」,同时还包含简易的独立应用程序,即使没有 VSTi/Audio Units 对应的 DAW,用户也可以使用。使用「VoiSona」和「知声」输出的语音波形数据,在个人/法人、商用/非商用的情况下,除部分例外情况外,原则上可以免费使用。
Voisona与CeVio曾属于同源。Techno-Speech公司为了追求突破CeVio的框架的限制,独立开发了Voisona来追寻更多的可能性。不同的是CeVio的工程保存文件为css,而Voisona的工程保存文件为tssln。
TTS是Text to speech的略称,就是音声合成(或语音合成)。
我们在上文说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。像VOICEROID这样的语音特化的音源也被称作是TTS。
VC是Voice conversion的简称,也就是文本转语音。保留文本的内容,而对语音进行替换,
SVS是Singing voice synthesis的简称,也就是歌声合成。据歌词和乐谱信息合成歌唱。相比于TTS使机器“开口说话”,歌唱合成则是让机器唱歌。
我们可以通过最近的浙江大学,北京大学和腾讯AI实验室(Tencent AI Lab)的一则文献来大概了解一下原理
顺带一提,虽然目前市面上大多数的编辑软件的原理都是运用了TTS,但部分编辑器例如CeVIO AI则是使用了DNN(deep neutral network,深层神经网络)或者CNN(convolution neutral network,卷积神经网络)的方法。简单而言,该系统使用计算机根据录制的声音创建「歌手个性」的模型,来让模型的歌唱更贴近真人。而像VOCALOID并没有使用DNN或是CNN这样的统计模型,只是采用了将各处的发音对应的波形连接的波形连接型声音合成(即传统的拼接声库)。不过值得一提的是,V6已经搭载了DNN学习功能,意味着我们也能在VOCALOID中使用AI声库了。
这两项技术并没有高低之分。你也许会使用DNN来追求极致的人声还原,使用自己喜爱的歌姬来还原真人歌唱的感觉,但例如“初音未来的消失”这样的曲子则不能通过DNN的形式来完成歌唱。传统的TTS形式可以完成更加灵活多变的演唱需求。
使用的宿主从来没有高低之分,百花齐放是最好的
VOCALOID的界面比下列的编辑器界面较为复杂多样一些,不过VOCALOID非常贴心详细地准备了VOCALOID的用户入门手册,我们只需要通过阅读该手册就可以很好的入门VOCALOID编辑器。用户入门手册可以在VOCALOID官网就可以查询,因此我在下文只进行一些必要的名词解释。
VOCALOID的参数设计拥有更多细致化的操作。
值得一提的是,我们可以在VOCALOID v6及以上的版本中选择不同的歌声合成方式。
我们需要先通过认证码进行认证,激活sv的编辑器界面声库
——歌声 一栏则选择加载你拥有的歌姬的声库模型。
选择歌姬完成之后,我们就可以开始进行创作了!
sv的编辑器导出方式有些特别,需要在右侧一栏中选择“渲染”,将你的作品进行导出
这是正常使用界面,让我们从第一步开始
开始打开宿主之后,你会收到一个弹窗让你进行验证,输入你购买的编辑器的代码之后,接下来会让你继续输入你所购买的歌姬的代码。不购买歌姬单独购买编辑器是无法使用整个CeVIo软件的。输入代码之后,软件会自动下载声库,只需要等待下载即可。
选择声库之后,一般会有对应音高,嘶哑(husky),音调(tune)和发声标准音高(pitch)
第一个音高对应的是影响歌姬的音色,提升以获得更浑厚成熟的声音,降低以获得更幼年尖细的声音。
在进行歌词的输入时,可以在假名的背后加注特殊符号来获得对应的歌唱效果:例如假声,颤音等一系列效果
(注:请确保输入特殊符号之前已切换英文键盘,否则编辑器将无法识别)
以下为部分CeVio歌姬的特殊符号效果,更多内容请查阅《CeVio用户手册》
与以上编辑器不同的是,Voisona的本体使用并不需要购买,只需要在官网进行下载即可。在编辑器中有自带的声库——知声(Chis-A)
使用Voisona之前,只需要在官网进行账号注册,并在编辑器中绑定你的邮箱即可。
值得一提的是,也许是因为CeVIo和Voisona曾是同源的原因,我们依然能够使用CeVIo的特殊符号编辑功能来编辑Voisona当中的效果。
不过通常我们可以通过右键目标音符来选择特殊发声效果。
在输入歌词时,如歌词中的“を“ 无法很好地进行标准发音(通常会被误发成“o”音)”时,则可以使用“うぉ”来替代(编辑器会强化“wo”的发音强度)
当歌词中遇到连音,长音或强化辅音发音时无法正确表达时,可以试着调整时间(tmg),或者是音量(vol)值来进行处理;或者可以将原有的单词内加入い(i) う(u) お(o) ん(n)等尾音来强化连接音的效果,或用来平衡长音带来的发音偏移问题。歌词编辑时更多应注重发声的正确与否而不是歌词拼写的正确与否。
想让歌词中的音素只发辅音部分吗?在目标音符后添加“'”即可(注意使用英文键盘),如果对效果不满意可以尝试直接在时间(tmg)中直接调节,延后元音的发音或直接去除元音的发音时间
“ん”的尾音鼻音过重?试试右键歌词中的音素选项,将“N”改为“n”(大小写区别),有时可以减轻过重的鼻音现象(尤其是低音)
想要模仿rap效果?试着编辑音高界面,将目标音高从上一个音符的音高或原有音符的音高开始,把音高拉低至原有音高的四度以下,并控制降低音高的起始位置要稍早于当前歌词发声的结束时间。
要想让歌姬有循序渐进的歌唱效果?试着将歌唱开头的发音音高降低三度,并略微晚些将音高恢复至原有音高(左低右高型波浪线)。
让歌姬更加接近真实人声的方法?试试可以通过自己亲自演唱,录音并找寻自己发声时的特点,为歌姬的发声时间和音高进行更加合理的修改。试着改变吸气与呼气时间(尤其是采用使用了DNN的声库时)。歌唱时的尾音,以及高音部分可以通过音高(pit)界面自行绘制波浪线以获得颤音效果,或直接通过颤音(vib)界面进行更直接的调整来获取人歌唱时所体现的“不稳定感”。刻意创造适当的瑕疵也是体现人类的歌唱的一种方式。