许愿一个“语音识别”功能 / Wishing a "voice recognition" function

DeepShallop · 2019 年 8 月 17 日午前 8:27

比如可以通过使用麦克风，让歌姬声库识别出说话的语调。然后用户微调一下参数，让歌姬唱出自己想要的效果，这样可以节省很多调声的时间。

For example, the user can use the microphone to let the virtual singer recognize the tone of the speech, and then fine-tune the parameters to achieve the desired effect, which can save a lot of adjusted time.

2921357491 · 2019 年 8 月 17 日午後 11:14

这个可能性应该很低吧。如果想直接说话读取的话会有其他软件的，B站上有很多视频会给你推荐软件。不过个人觉得还是自己调更好

DeepShallop · 2019 年 8 月 18 日午前 2:51

那些又是什么类型的软件？能透露一下名字吗

2921357491 · 2019 年 8 月 18 日午前 10:09

Melodyne这个软件。安装什么的极其麻烦，不看教程基本不会。建议自己调，习惯了自然不麻烦melodyne系列教程

DeepShallop · 2019 年 8 月 18 日午前 10:23

谢谢了，其实我只是想有什么方法能让歌姬声库读取说话的语调，减少调声的时间，专注于让歌姬能更加“自然”的方面上面

2921357491 · 2019 年 8 月 18 日午前 10:29

这个的话目前应该做不到哎…如果有的话，现在也不会有人花这么多时间去调音了…至于“自然”还是要自己去慢慢摸索

skybluep · 2019 年 8 月 18 日午前 11:37

麦乐迪导出midi,在synthv平滑音调。

Jack_Ton · 2019 年 8 月 18 日午前 11:44

對，那調校師沒有存在的意義了

DeepShallop · 2019 年 8 月 18 日午後 12:28

难道不是调教师有更多时间去完善其他更高端的事情吗

2921357491 · 2019 年 8 月 18 日午後 12:35

有句俗语叫什么来着？我似乎忘了…反正差不多就是，不能为了完成更高端的事而不去做底层的事情

Jack_Ton · 2019 年 8 月 18 日午後 12:39

好像是萬丈高樓從地起

DeepShallop · 2019 年 8 月 18 日午後 12:39

罗马不是一天建成的是没错，但也有一句俗语，科技改变生活

2921357491 · 2019 年 8 月 18 日午後 12:41

這裡糾正一下，正確的應該是“萬丈高樓平地起”

2921357491 · 2019 年 8 月 18 日午後 12:43

哈哈哈有趣，等等我塞个表情包
QQ%E5%9B%BE%E7%89%8720190818204307

Jack_Ton · 2019 年 8 月 18 日午後 12:45

但你不能偷懶啊,不用調校了嗎？

DeepShallop · 2019 年 8 月 18 日午後 12:47

那当然要调校了，在那个基础上再微调到想要的效果，节省一些时间
比如一个java工程师，已经有那么多信手拈来的第三方lib，他没必要去从零再写一堆lib来实现想要的功能，节省大量开发时间，所以他偷懒了吗？

Jack_Ton · 2019 年 8 月 18 日午後 12:54

也對，但智能調教會超過人類嗎？雖然很方便，但最多也是平均水平
像是亲自写的lid,可以弄得更好,
如果我用你那句说就像是比如一个调校师，已经有那么多信手拈来的第三方工程文件，
他没必要去从零再调校，来实现想要的效果，节省大量时间，所以他偷懒了吗？

DeepShallop · 2019 年 8 月 18 日午後 1:04

6af89bc8gw1f8sz0bj79mj20hs0hqq3r
神特么谁跟你说智能调教了
你以为java调用个lib就会有个人工智能把所有程序逻辑都帮你自动写出来，连BUG都不用自己修？
照你那神逻辑，这个编辑器都不要用了都去好好学唱歌，用了这个编辑器就是在偷懒，都要去练个几年伪声，用这个编辑器可以节省大量时间，所以用了就是偷懒
家里的电磁炉都扔掉，都去转木取火，用电磁炉就是偷懒

ejiwarp · 2019 年 8 月 19 日午前 1:30

寫在前頭:這不是官方觀點，是個人分享。

歌聲合成因為角色經營需求的關係，經常性地會提出需要語音合成(text to speech)。
但是語音合成能產生的語音非常地受限，基本上是大量而不求精細的需求。

相較之下，人工進行的動作不論品質與否產量均有限度，所以透過TTS產生相當的念稿內容+一部分的角色演出，這個需求理應算是合理。

上面這段已經包含了好幾個不同的需求:

對SynthV的樂譜透過rule based進行大量相對單調的語音的產生
針對小範圍的演技進行語音輸入(非識別)

1的作法技術相對古老但是實作良好的話效果仍佳:
舉例:Text-to-Speech VSQX powered by OpenJtalk

上述兩個使用方式與現有的SynthV都有很大的UI區隔，都已經應該單獨包裝成產品，其實有超出SynthV這個項目的功能需求。

1的話在SynthV透過簡易TTS產生類似樂譜的作法在推出前已經考量過，只是優先度較低。
要維持優勢，SynthV本身還有很多需要改良的地方，對新項目的熱中度就低一些。

以我的想法是，現在相對值得做的其實是Voice Conversion，特別是「與聲庫聲音類似」的VC，因為和上述2的需求類似，即時性UI相對簡單而且泛用，市場上也有需求，也有很多競品了，畢竟既然要開項目就應該開到有需求的地方。

不過SynthV，或者Kanru的行事風格其實是用保守堆疊來跨越進步目標。
比方說，這裡引用稍早提出的SVR2的其中一個功能

這指的是透過差分GMM移植本人的歌唱習慣與聲線差異到本人的聲庫上，
由於是本人對本人的VC，是一個相對容易的工程，所以可以透過線性增減的方式來做調整。
可以預期這個是用來替代jitter 的一個新參數，相對廣泛地改善「生動」程度。

也就是說，因為這個DiffGMM VC的用法，可以說上面2的項目對Kanru的policy而言仍然是太過冒險。
這也就是為什麼他會說
「Synthesizer V Release 2 will be the world’s most advanced singing synthesis engine.」
因為它其實是數個完全不同的保守技術塞在同一個範疇去堆疊起來的。

他本人的技術開發優勢其實不是單一技術的飛躍程度，而是多數技術的實作細節細膩程度。
所以可以預期，項目增加的可能性是較低的。

2921357491 · 2019 年 8 月 19 日午前 1:33

简体中文

写在前头：这不是官方观点，是个人分享。

歌声合成因为角色经营需求的关系，经常性地会提出需要语音合成（text to speech）。

但是语音合成能产生的语音非常地受限，基本上是大量而不求精细的需求。

相较之下，人工进行的动作不论质量与否产量均有限度，所以透过TTS产生相当的念稿内容+一部分的角色演出，这个需求理应算是合理。

上面这段已经包含了好几个不同的需求：

对SynthV的乐谱透过rule based进行大量相对单调的语音的产生

针对小范围的演技进行语音输入（非识别）

1的作法技术相对古老但是实作良好的话效果仍佳：

举例：Text-to-Speech VSQX powered by OpenJtalk

对音高与note等等进行识别之后转译到乐谱进行labeling的功能

上述两个使用方式与现有的SynthV都有很大的UI区隔，都已经应该单独包装成产品，其实有超出SynthV这个项目的功能需求。

1的话在SynthV透过简易TTS产生类似乐谱的作法在推出前已经考察过，只是优先度较低。

要维持优势，SynthV本身还有很多需要改良的地方，对新项目的热中度就低一些。

以我的想法是，现在相对值得做的其实是Voice Conversion，特别是「与声库声音类似」的VC，因为和上述2的需求类似，

即时性UI相对简单而且泛用，市场上也有需求，也有很多竞品了，毕竟既然要开项目就应该开到有需求的地方。