水区｜现在AI语音到底发展到什么地步了

来自：meme
2022-09-06 12:33:42 已编辑山东

今天听了莫弈的AI语音觉得很惊讶，听起来像是个长了姜声带但是入行刚两年的新人，有些地方还是有点棒读但是已经能称之为“人的棒读”的感觉了🙊

放个链接

【未定事件簿】莫弈新卡AI配音实装效果惊艳，喘息低语好真实！ | MR『腴绵』完整私语_哔哩哔哩bilibili_未定事件簿

看到说国内科大讯飞还有国外几家真正走在前沿的几年前就已经有这种水平了，蹲一个懂行的uu科普

如果技术真的发展到这个阶段了，再降低一下成本，感觉部分领域走到取代真人那步已经不远了……

加入小组后即可参加投票

确定

回复转发赞收藏只看楼主

M居 (静坐长思己过，闲谈莫论人非) 2022-09-06 12:42:39 广东

没普及可能不是成本降不下来的原因而是其他原因，统称“技术原因”

删除 |

赞 (30) 回复
豆友227342604 2022-09-06 12:46:56 北京

[内容不可见]

删除 |

赞 (1) 回复
属性复杂 2022-09-06 12:47:39 河北

想知道，活泼型的能配吗

删除 |

赞回复
翩翩以孚 (立本执道，一以贯之。) 2022-09-06 12:48:08 辽宁

为什么连气音都有啊……天呐😲

删除 |

赞 (1) 回复
果汁 2022-09-06 13:00:14 辽宁

一些语气词很真实啊！还有气声、亲亲，天啊，不说Al是可以当成真人的。

删除 |

赞 (1) 回复
魔法使（被拥抱 2022-09-06 13:00:26 山东

楼主说的是mhy的AI技术，网易的还差老远（

删除 |

赞 (17) 回复
七宝（晒太阳中 2022-09-06 13:09:46 辽宁

细听语调还是挺平的，达不到专业配音演员的水平，但如果不事先说明的话可能听不出是ai😧

删除 |

赞 (5) 回复
吃饼干的包子 2022-09-06 13:12:19 浙江

也需要足够多的样本吧越多调的越精准。。

删除 |

赞回复
meme 楼主 2022-09-06 13:12:20 山东

突然在思考，米哈游有这个技术水平了为什么原神须弥版本不干脆上AI得了……这AI不比实装那几个强多了……除非是觉得成本太高……

删除 |

赞 (6) 回复
豆友205511579 2022-09-06 13:29:35 重庆

[内容不可见]

删除 |

赞 (3) 回复
KINOKO (备用田。) 2022-09-06 13:51:12 江苏

真的好自然啊！

删除 |

赞回复
折竹泻寒声 2022-09-06 13:54:25 河南

现在的ai本质上就是大数据分析+人工声线+人工调音。所以归根结底ai配音还是人工产品。而且成本确实高，技术水平达不到，技术缺陷也很明显，限制颇多，应用面窄。

删除 |

赞 (10) 回复
折竹泻寒声 2022-09-06 13:55:32 河南

而且ai配音确实达不到人工配音的水平，乍一听还能唬唬人，听多了你会觉得越来越难听

删除 |

赞回复
meme 楼主 2022-09-06 14:12:14 山东

现在的ai本质上就是大数据分析+人工声线+人工调音。所以归根结底ai配音还是人工产品。而且成本确现在的ai本质上就是大数据分析+人工声线+人工调音。所以归根结底ai配音还是人工产品。而且成本确实高，技术水平达不到，技术缺陷也很明显，限制颇多，应用面窄。 ... 折竹泻寒声

想看有没有更细致的科普或者分析（x）

删除 |

赞回复
meme 楼主 2022-09-06 14:14:46 山东

而且ai配音确实达不到人工配音的水平，乍一听还能唬唬人，听多了你会觉得越来越难听而且ai配音确实达不到人工配音的水平，乍一听还能唬唬人，听多了你会觉得越来越难听折竹泻寒声

这个我个人感觉已经比圈里有些人要强了（最起码普通话标准咬字清晰又能保持一定的输出能力），当然，跟那些比较成熟的配音演员能做到的情绪表达还是没法比的，上升空间还是很大

删除 |

赞 (3) 回复
无事小神仙 2022-09-06 14:19:15 安徽

在科大讯飞实习，我司每天打卡都是智能声纹识别，其实AI语音国内发展得挺成熟了，成本也是可控的，之所以无法普及是有科技伦理和政策人权方面的限制和管理。

删除 |

赞 (15) 回复
綾地寧々 2022-09-06 14:22:24 福建

感兴趣可以找tts和vits看一看，不过大部分人应该都不感兴趣（笑）。vits的话b站上有不少爱好者的整活，不少项目已经可以做到还原角色音色了（但是语气断句这种明显还是不行）绘那个公告里说的网易用的是声纹提取，mhy的逆熵我记得是通过深度学习来做声音模仿，实现方式上会有一些不一样。不过在情绪上走的应该都是深度学习模仿，自然程度取决于迭代数和样本量，理论上如果样本足够大，最后干碎业界确实也有可能但是如果广泛推广的话，应该会有声音版权这种东西出现。我记得日本有个厂家搞过深度学习画手风格从而自动画图的软件，但是因为模仿画手特点却没有搞认证，在beta阶段就被画手们联合干碎了（）

删除 |

赞 (4) 回复
豆友227342604 2022-09-06 14:41:32 北京

感兴趣可以找tts和vits看一看，不过大部分人应该都不感兴趣（笑）。vits的话b站上有不少爱好者的感兴趣可以找tts和vits看一看，不过大部分人应该都不感兴趣（笑）。vits的话b站上有不少爱好者的整活，不少项目已经可以做到还原角色音色了（但是语气断句这种明显还是不行）绘那个公告里说的网易用的是声纹提取，mhy的逆熵我记得是通过深度学习来做声音模仿，实现方式上会有一些不一样。不过在情绪上走的应该都是深度学习模仿，自然程度取决于迭代数和样本量，理论上如果样本足够大，最后干碎业界确实也有可能但是如果广泛推广的话，应该会有声音版权这种东西出现。我记得日本有个厂家搞过深度学习画手风格从而自动画图的软件，但是因为模仿画手特点却没有搞认证，在beta阶段就被画手们联合干碎了（） ... 綾地寧々

[内容不可见]

删除 |

赞回复
綾地寧々 2022-09-06 15:18:46 福建

[内容不可见] [内容不可见] 豆友227342604

这玩意本质是深度学习，如果能学习到模仿人声的水准，把这套学习工具和成果拿去做大数据分析或者其他方面的人工智能，也会有不小的成果，拟声只是其中的一个表现而已

删除 |

赞回复
豆友227342604 2022-09-06 15:26:18 北京

这玩意本质是深度学习，如果能学习到模仿人声的水准，把这套学习工具和成果拿去做大数据分析或者这玩意本质是深度学习，如果能学习到模仿人声的水准，把这套学习工具和成果拿去做大数据分析或者其他方面的人工智能，也会有不小的成果，拟声只是其中的一个表现而已 ... 綾地寧々

[内容不可见]

删除 |

赞回复
綾地寧々 2022-09-06 15:41:11 福建

[内容不可见] [内容不可见] 豆友227342604

商业方面确实，主要是声音基本都是作为配件出现的😂除非是成本能压到一定程度（小成本国产AVG狂喜）

删除 |

赞回复
豆友227342604 2022-09-06 15:45:28 北京

商业方面确实，主要是声音基本都是作为配件出现的😂除非是成本能压到一定程度（小成本国产AVG 商业方面确实，主要是声音基本都是作为配件出现的😂除非是成本能压到一定程度（小成本国产AVG狂喜） ... 綾地寧々

[内容不可见]

删除 |

赞回复
meme 楼主 2022-09-06 16:08:23 山东

感兴趣可以找tts和vits看一看，不过大部分人应该都不感兴趣（笑）。vits的话b站上有不少爱好者的感兴趣可以找tts和vits看一看，不过大部分人应该都不感兴趣（笑）。vits的话b站上有不少爱好者的整活，不少项目已经可以做到还原角色音色了（但是语气断句这种明显还是不行）绘那个公告里说的网易用的是声纹提取，mhy的逆熵我记得是通过深度学习来做声音模仿，实现方式上会有一些不一样。不过在情绪上走的应该都是深度学习模仿，自然程度取决于迭代数和样本量，理论上如果样本足够大，最后干碎业界确实也有可能但是如果广泛推广的话，应该会有声音版权这种东西出现。我记得日本有个厂家搞过深度学习画手风格从而自动画图的软件，但是因为模仿画手特点却没有搞认证，在beta阶段就被画手们联合干碎了（） ... 綾地寧々

感谢科普！

删除 |

赞回复
meme 楼主 2022-09-06 16:11:03 山东

[内容不可见] [内容不可见] 豆友227342604

我也觉得，除此之外长期连载制游戏尤其是对于乙游而言，AI语音能够更好地保障纸片人的“纯洁性”降低玩家受伤风险，似乎是个更符合受众需求的发展方向

删除 |

赞回复
折竹泻寒声 2022-09-06 20:28:04 河南

给lz详细说说我知道的东西吧，不过我不是专门学这方面的人，了解也很浅薄，如果有错误希望大家能指出。最早的对语音合成技术的研究出现于上世纪30年代，那时候没有计算机，对声音的处理仅限于模拟水平，通过滤波器处理声音。滤波器你可以理解为一堆电路，能过滤除某个(些）特定频率的频点外的其他频点。很显然这个模拟技术很不稳定，合成的人声也不自然(因为电路之间电容电感的误差一直存在）上世纪80年代，计算机的应用让语音合成技术有了飞跃，计算机可以很好的处理声音，单元挑选和波形拼接技术走向成熟。这时候的语音合成依旧是人声的拼接，但已经成熟了很多。 20世纪末期，HMM参数合成技术出现，不同于之前的语音拼接，HMM对每个声音单位进行高斯建模，从而生成语音参数，进而声称模型。有了这个模型后你就可以输入文本，应用声源，通过参数合成器输出语音。到了今天，语音合成技术不满足于单纯的数据处理和函数建模，开始转向深度学习，这才能被称为ai语音，通过ai技术，叠加神经网络，训练ai的语音合成系统，生成声学参数模型。但这种深度学习算法受制于计算量，现阶段的硬件平均水平很难支持这么庞大的运算量，所以只有部分硬件水平达标的计算机才能进行神经网络训练。现在的技术已经能达到自然这个要求了，却很难达到情感的标准。这是弱ai难以实现的。也许有一天强ai的出现能够改变这个缺陷。

删除 |

赞 (1) 回复
meme 楼主 2022-09-06 20:46:27 山东

给lz详细说说我知道的东西吧，不过我不是专门学这方面的人，了解也很浅薄，如果有错误希望大家能给lz详细说说我知道的东西吧，不过我不是专门学这方面的人，了解也很浅薄，如果有错误希望大家能指出。最早的对语音合成技术的研究出现于上世纪30年代，那时候没有计算机，对声音的处理仅限于模拟水平，通过滤波器处理声音。滤波器你可以理解为一堆电路，能过滤除某个(些）特定频率的频点外的其他频点。很显然这个模拟技术很不稳定，合成的人声也不自然(因为电路之间电容电感的误差一直存在）上世纪80年代，计算机的应用让语音合成技术有了飞跃，计算机可以很好的处理声音，单元挑选和波形拼接技术走向成熟。这时候的语音合成依旧是人声的拼接，但已经成熟了很多。 20世纪末期，HMM参数合成技术出现，不同于之前的语音拼接，HMM对每个声音单位进行高斯建模，从而生成语音参数，进而声称模型。有了这个模型后你就可以输入文本，应用声源，通过参数合成器输出语音。到了今天，语音合成技术不满足于单纯的数据处理和函数建模，开始转向深度学习，这才能被称为ai语音，通过ai技术，叠加神经网络，训练ai的语音合成系统，生成声学参数模型。但这种深度学习算法受制于计算量，现阶段的硬件平均水平很难支持这么庞大的运算量，所以只有部分硬件水平达标的计算机才能进行神经网络训练。现在的技术已经能达到自然这个要求了，却很难达到情感的标准。这是弱ai难以实现的。也许有一天强ai的出现能够改变这个缺陷。 ... 折竹泻寒声

噢！！感谢科普，感觉挺有意思的

删除 |

赞回复
折竹泻寒声 2022-09-06 20:46:36 河南

其实目前语音合成主要有两种模式，一种是机械式的合成，一种是仿生式的依靠深度学习算法的合成。第一种，也是目前最常见的，给大家举个例子，vocaloid，这是初音未来的语音合成软件，整个引擎基于拼接合成的技术，做到极致大量的建模，以高精确的参数得到高质量的语音。简单说就是有一个音源库，这里面有一个人各种各样的说话录音，vocaloid开始计算，把这些录音分割成low level, mid level,high level三个层面，low是声音底层参数层面，mid是语音学，high就是情感，更接近人说话的层面。当vocaloid把这些数量足够的语音分析完后，会建模生成大量的参数模型，这些参数模型再组合到一起，就是一个音源库的声学参数模型了。有了这个模型，配合上文本内容，就能合成出语音。所以这方面的技术归根结底还是排列组合。

删除 |

赞 (1) 回复
折竹泻寒声 2022-09-06 20:56:15 河南

第二种，也是目前最新的技术，将ai技术融入到语音合成中，也就是大家所说的ai配音(当然很多不是这个技术的也被误称为ai配音了)。ai配音不是第一种的排列组合，而是深度学习。我们用大量的音源，放入神经网络让ai采样分析，训练ai。让ai对音源库进行特征提取，为每组音源库生成独一无二的数据模型。这样合成的语音会更流畅更自然，近乎于人。但这个庞大的计算量和对计算机硬件的高度要求都让成本十分高昂。

删除 |

赞 (1) 回复
折竹泻寒声 2022-09-06 21:01:08 河南

如今的技术依然在发展，开始在ai深度学习的基础上改变对声音的分析模式，从分析音节到分析数字——声音的本质是震动，在音响里就是膜片的震动，这种震动由电磁场引起，而电磁场的变化又由通电影响，通电就可以转化为0和1的组合排序，这就是数字信号。语音合成也开始由组合音节变为组合数字信号。

删除 |

赞 (1) 回复
momo 2022-09-06 22:55:07 澳大利亚

如今的技术依然在发展，开始在ai深度学习的基础上改变对声音的分析模式，从分析音节到分析数字— 如今的技术依然在发展，开始在ai深度学习的基础上改变对声音的分析模式，从分析音节到分析数字——声音的本质是震动，在音响里就是膜片的震动，这种震动由电磁场引起，而电磁场的变化又由通电影响，通电就可以转化为0和1的组合排序，这就是数字信号。语音合成也开始由组合音节变为组合数字信号。 ... 折竹泻寒声

有被科普到。。。谢谢uu！！

删除 |

赞回复
meme 楼主 2022-09-06 22:56:05 山东

如今的技术依然在发展，开始在ai深度学习的基础上改变对声音的分析模式，从分析音节到分析数字— 如今的技术依然在发展，开始在ai深度学习的基础上改变对声音的分析模式，从分析音节到分析数字——声音的本质是震动，在音响里就是膜片的震动，这种震动由电磁场引起，而电磁场的变化又由通电影响，通电就可以转化为0和1的组合排序，这就是数字信号。语音合成也开始由组合音节变为组合数字信号。 ... 折竹泻寒声

我有个问题有人说米哈游的技术是有人录音然后转化成其他声线而不是录入文本合成调教的这个是操作起来难度低的多吗？要怎么区分呢？

删除 |

赞回复
折竹泻寒声 2022-09-06 23:27:44 河南

这种技术也是存在的，而且确实成本低一些，合成出的人声也更贴近真实人声。很多打着ai噱头的短视频虚拟歌姬网红都用这种方法。因为感情这方面依然是ai配音难以攻克的难关。要不就是像vocaloid这样通过庞大的建模运算量来精确声音的参数，要不就是像cevio一样创造新的函数模型应用形式使声音更有节奏、韵律和真人发声习惯，要不就是用ai进行深度学习。这三种方法无一不需要高规格的计算机硬件和高端人才。相较之下请人配音，用计算机捕捉声音频率区间，再将音源库中的声音提取合适的音节拼接其中，要比以上方法省钱省事的多，而且会更贴近真人声。

删除 |

赞回复
折竹泻寒声 2022-09-06 23:31:11 河南

而且米哈游这种技术才是目前ai配音的大多数。因为真正的ai配音成本真的太高了，效果也不一定有真人配音的好。你要问怎么区分，很简单，一个是计算机通过声学参数模型建立一句话的模板，再将音源库的声音填进去，一个是事先请人录好一句话，音调节奏情感都有了，只需要换个声线就行了。

删除 |

赞回复
折竹泻寒声 2022-09-06 23:42:41 河南

说实话我对目前有些说法不认同，比如让ai配音代替真人，ai配音目前的水平完全达不到对情感的演绎，而且成本之高昂也是大部分语音需求者无法承受的。如果只是真人演绎后换个声线，那就不是真正的ai配音了，而且为什么不直接找声源提供者配音呢？换声纹也是成本啊。我个人认为，想要ai配音发展到能取代真人的程度，恐怕还要几十年呢。

删除 |

赞回复
螺旋迷宫 2022-09-07 01:57:09 河北

可是ai再聪明，它也是没有情绪这种东西的啊也就是说ai也就是模仿个声音，具体的词句，轻重缓急，语气停顿，都还是要人工调的人先配一句，ai用特定的声线模仿一句，成本又高又麻烦，还不如直接找人配呢

删除 |

赞 (1) 回复
星星子 (已經10年了) 2022-09-07 08:15:03 泰国

我个人理解就是…因为姜给的样本量够足……所以整体效果还不错。

删除 |

赞回复