比如可以通过使用麦克风,让歌姬声库识别出说话的语调。然后用户微调一下参数,让歌姬唱出自己想要的效果,这样可以节省很多调声的时间。
For example, the user can use the microphone to let the virtual singer recognize the tone of the speech, and then fine-tune the parameters to achieve the desired effect, which can save a lot of adjusted time.
「いいね!」 1
这个可能性应该很低吧。如果想直接说话读取的话会有其他软件的,B站上有很多视频会给你推荐软件。不过个人觉得还是自己调更好
Melodyne这个软件。安装什么的极其麻烦,不看教程基本不会。建议自己调,习惯了自然不麻烦melodyne系列教程
「いいね!」 1
谢谢了,其实我只是想有什么方法能让歌姬声库读取说话的语调,减少调声的时间,专注于让歌姬能更加“自然”的方面上面
这个的话目前应该做不到哎…如果有的话,现在也不会有人花这么多时间去调音了…至于“自然”还是要自己去慢慢摸索
有句俗语叫什么来着?我似乎忘了…反正差不多就是,不能为了完成更高端的事而不去做底层的事情
罗马不是一天建成的是没错,但也有一句俗语,科技改变生活
「いいね!」 1
那当然要调校了,在那个基础上再微调到想要的效果,节省一些时间
比如一个java工程师,已经有那么多信手拈来的第三方lib,他没必要去从零再写一堆lib来实现想要的功能,节省大量开发时间,所以他偷懒了吗?
也對,但智能調教會超過人類嗎? 雖然很方便,但最多也是平均水平
像是亲自写的lid,可以弄得更好,
如果我用你那句说 就像是比如一个调校师,已经有那么多信手拈来的第三方工程文件,
他没必要去从零再调校,来实现想要的效果,节省大量时间,所以他偷懒了吗?
神特么谁跟你说智能调教了
你以为java调用个lib就会有个人工智能把所有程序逻辑都帮你自动写出来,连BUG都不用自己修?
照你那神逻辑,这个编辑器都不要用了都去好好学唱歌,用了这个编辑器就是在偷懒,都要去练个几年伪声,用这个编辑器可以节省大量时间,所以用了就是偷懒
家里的电磁炉都扔掉,都去转木取火,用电磁炉就是偷懒
寫在前頭:這不是官方觀點,是個人分享。
歌聲合成因為角色經營需求的關係,經常性地會提出需要語音合成(text to speech)。
但是語音合成能產生的語音非常地受限,基本上是大量而不求精細的需求。
相較之下,人工進行的動作不論品質與否產量均有限度,所以透過TTS產生相當的念稿內容+一部分的角色演出,這個需求理應算是合理。
上面這段已經包含了好幾個不同的需求:
- 對SynthV的樂譜透過rule based進行大量相對單調的語音的產生
- 針對小範圍的演技進行語音輸入(非識別)
1的作法技術相對古老但是實作良好的話效果仍佳:
舉例:Text-to-Speech VSQX powered by OpenJtalk
上述兩個使用方式與現有的SynthV都有很大的UI區隔,都已經應該單獨包裝成產品,其實有超出SynthV這個項目的功能需求。
1的話在SynthV透過簡易TTS產生類似樂譜的作法在推出前已經考量過,只是優先度較低。
要維持優勢,SynthV本身還有很多需要改良的地方,對新項目的熱中度就低一些。
以我的想法是,現在相對值得做的其實是Voice Conversion,特別是「與聲庫聲音類似」的VC,因為和上述2的需求類似,即時性UI相對簡單而且泛用,市場上也有需求,也有很多競品了,畢竟既然要開項目就應該開到有需求的地方。
不過SynthV,或者Kanru的行事風格其實是用保守堆疊來跨越進步目標。
比方說,這裡引用稍早提出的SVR2的其中一個功能
這指的是透過差分GMM移植本人的歌唱習慣與聲線差異到本人的聲庫上,
由於是本人對本人的VC,是一個相對容易的工程,所以可以透過線性增減的方式來做調整。
可以預期這個是用來替代jitter 的一個新參數,相對廣泛地改善「生動」程度。
也就是說,因為這個DiffGMM VC的用法,可以說上面2的項目對Kanru的policy而言仍然是太過冒險。
這也就是為什麼他會說
「Synthesizer V Release 2 will be the world’s most advanced singing synthesis engine.」
因為它其實是數個完全不同的保守技術塞在同一個範疇去堆疊起來的。
他本人的技術開發優勢其實不是單一技術的飛躍程度,而是多數技術的實作細節細膩程度。
所以可以預期,項目增加的可能性是較低的。
「いいね!」 2