关于音调衔接模型的建议【十五字

虽然目前还没下载正式版【不过就在技术预览版中使用的体验而言,还是想发表一下

这个调整左右时间与深度的模型,有想法,并且在一定条件下会短时间越过目标音高再转回,也符合一些时候的实际情况。
但是,我认为还是不够。下面是有参数窗口,手画音高曲线为所欲为,上面还有最终加起来的音高的位置提示。
是的,但是,在下面画的时候要考虑跟上面的加起来,要考虑两者斜率互相影响、位置对齐,实际用起来还是比较蛋疼的。
上面提到了控制斜率,其实,就是单独在下面画,这也是个比较坑的(Vocaloid就是如此,能用,但是仍未感觉到舒服),很难控制出现的锯齿。以及斜率很大的情况,也就是移动一点点就会巨大改变斜率的情况,反复重画也难控制。

所以我还是建议引入一个类似UTAU mode2的控制点模型,音符头部带一串相对于音符开头的控制点(做成尾部也有更好,加延音符法也行)。
中间的插值,我的一个想法是用三次曲线,然后控制点上可以调切线,也就是斜率。

全局音高曲线保留着,主要用于音节正中间的其他高级创作吧(甚至觉得下方的全局参数曲线也都采用某种控制点曲线的方式比较好,只要编辑时有一些机制保障影响范围,不会出现把前后大片平坦区也变斜的情况就好(如前后自动加上一定距离的默认点)。

总而言之,一遍遍重画(而经常本质上就是某种方式移动一下)体验并不好。

再另这标题十五字限制:rofl:贴吧光荣传统么【

其实也未必需是这样,像是cevio的手画我就觉得很舒服,
但不知道为什么同样的到了sv、sk我就觉得略微蛋疼了。
可能是sv和sk的参数切换、默认pit的发音都不是我喜欢的吧,
sv不知道是不是为了规避发音过于电子感的关系,
导入默认pit音头音尾都有过分夸张走音的感觉,
并且颤音控制也是挺繁琐的(对新手来说可以说很不友好了)。
再加上默认发音有些过分拖沓,像是vocaloid把vel画满了的感觉,
我总觉得它不应该那么拖沓,毕竟那样听起来像是很老的样子,没有活力。

utau的控制点本质上是减小工作量的,我也是非常喜欢的
但是utau的修改音符实在太繁琐,会让我的内心全无orz

「いいね!」 1

你是不是完全不知道?
正式版可以直接在钢琴帘上画音高曲线了。

「いいね!」 1

我有过类似想法,但是这种模型重新设计就会和之前的数据结构不兼容。
所以如果要重新设计,必须要放在大版本更新;重新设计出的新方案是否真的比原来好又是另一个风险。这不仅仅是个技术问题,亦是用户习惯问题。目前为止我们接受到的反馈中,赞成每种不同的音高控制方法的声音都有。

目前使用的音高模型取自Luc Ardaillon的multi-layer spline model。对于粗略调教够用,细节则需要靠手绘补充。

@demon_orz

并且颤音控制也是挺繁琐的

可以说明一下具体哪里比较繁琐?期望怎么样?

再加上默认发音有些过分拖沓,像是vocaloid把vel画满了的感觉,
我总觉得它不应该那么拖沓,毕竟那样听起来像是很老的样子,没有活力。

我不知道是录音问题,声优的特点,还是引擎本身会有这种问题。请问有例子能具体说明是何种感觉吗?

@khuasw
拖沓问题日文声库其实是最明显的,
而中文相对还好一些些。
举例的话我用这两首曲子来作例子吧
『艾可』童年【SynthV / 无参】
https://www.bilibili.com/video/av39292991
『艾可』捉泥鳅【SynthV / 无参】
https://www.bilibili.com/video/av39358803
这两首歌卓依婷老师都是唱过的,具体在各大音乐网站也是很容易找到的。
一个问题是qiu、ge、ji等的qi、g、j部分相对太短,
很多时候几乎模糊化掉了,导致听不太清楚这个发音。
第二个就是pit,虽然cevio也有部分音是开头往下或上压的,但是并非常见,
而sv是每一个音阶变化较大的音都有类似的现象,在调教上这种用法是表现power的时候才这么处理的,
这个点也是会增加年龄感的,一般平直的会更加显得年轻化,也显得气息更稳。
卓依婷老师的唱法其实更贴近普通人的审美,在这样的基础上再拓展“唱功”的调教其实更加方便。

现在默认的pit的缘由也是懂的,但这个自动化出来的实在是不够自然的。
虽说可以手动去掉,但是看了上面的那些试用视频,还有看别的初学者用别的软件做出来的一些作品,
我比较相信初学者是不懂怎么把那个效果去掉的,
我自己的话,则是很抗拒重复按快捷键,所以都是通过pit把那些浮动的音头画平。

某只泽老师的这个作品是有自动与手画pit参数对比的
https://www.bilibili.com/video/av39326056
可以比较直观能看到,原生的pit对他作品其实并无太大帮助的。
这是我看到的第一个保持原生音符时间,表现力却满意的作品了,
但是代价就是更加夸张的音头pit来突出被弱化掉的一些咬字,
起码比起中岛美嘉老师的原版来说,算是超级超级夸张了。

如果是方便一般人使用的话,
我觉得不那么夸张、预制上咬字相对更加活跃一些,
更适合初学者和快速创作试唱demo的作者。

「いいね!」 1

谢谢反馈。我大致了解情况了。
艾可的声优是台湾人,她本人发声jqx这几个音就比较短,内部测试时的man-f1则未曾遇到这个情况。一定程度上这个时长区别可以用音符属性里的音节时间控制调整。其它发音的时常问题也有一部分在引擎侧可以改进,这些以后会陆续更新。
默认音高参数的事情再让我观察一下决定。

我個人的想法是數據結構有必要保留,但是需要pitch手繪則提供assist。
控制點模式的手感幫助大過對資料結構改動的必要性,這篇向習慣問題。
這時出現一些誤差其實問題不大,也沒有必要作到精確。

至於預設Spline model,反而其實沒有感受到不足之處。


聲庫發音特徵與音高模型的特性應該分開來說。

然后web版出现了,pit曲线改成了少点富插值的,就如预期出现了【前后自动歪【。