053 ChatGPT应用篇33——手把手教你用AI克隆声音

前段时间B站上孙燕姿AI歌曲异常火爆,动辄百万播放量,让孙燕姿从一个“冷门歌手”一举成为“新晋顶流”。

一时间,用AI克隆孙燕姿声音做出来的歌曲铺天盖地。

就连孙燕姿本人都发文感叹AI的强大,说自己是可被定制的。

今天这篇文章就教你如何通过AI来克隆自己或者别人的声音,让你也能轻松做出一首AI歌曲,甚至让自己成为“顶级歌手”。

由于文章内容比较长,加上需要展示最终的效果,音频文件无法直接上传到这里,所以请点击下方链接进行阅读:

硬核教程!手把手教你用AI克隆声音

7月24日创建

前段时间B站上孙燕姿AI歌曲异常火爆,动辄百万播放量,让孙燕姿从一个“冷门歌手”一举成为“新晋顶流”。

一时间,用AI克隆孙燕姿声音做出来的歌曲铺天盖地。

就连孙燕姿本人都发文感叹AI的强大,说自己是可被定制的。

今天这篇文章就教你如何通过AI来克隆自己或者别人的声音,让你也能轻松做出一首AI歌曲,甚至让自己成为“顶级歌手”

第一步,部署AI声音克隆工具:

点击下方链接下载AI声音克隆工具的完整包:

925

926

如果打不开上面链接的话,也可以直接点击这个链接进行下载:

927

下载完成后对压缩包进行解压,注意解压完成后大概需要10G的空间,所以除非C盘容量特别大,否则尽量不要
解压到C盘。

928

929

解压完成后打开文件夹,找到go-web文件并双击运行:

930

加载程序,如果比较慢的话不用担心,第一次打开可能加载的内容比较多

931

加载完成后会在浏览器中自动打开这个页面,如果没有自动打开的话,可以复制下方链接到浏览器,手动打开:

932

933

第二步,选择声音模型:
和Stable Diffusion一样,我们需要有一个声音模型才能克隆声音,打开下方链接,选择声音模型:

934

935

在页面左侧找到“voice-models”并点击:

936

找到一个自己感兴趣的声音模型并点击,然后右侧会有这个模型的详细信息
点击下方声音文件可以试听,觉得可以的话就可以点击上方链接下载

937

下载完成之后会是一个压缩包,解压之后里面有两个文件,先选择”.ph”后缀的文件并复制:

938

打开最开始解压的文件夹,把刚刚复制的文件粘贴到weights文件夹里:

939

然后再找到logs文件夹:

940

再logs文件夹里新建一个文件夹,并命名为和声音模型一样的名称:

941

接着找到声音模型文件夹里的另一个文件并复制:

942

粘贴到刚刚新建好的文件夹里:

943

回到操作页面,点击刷新音色列表和索引路径,再点击左侧推理音色栏就可以看到刚刚导入的声音模型了:

944

然后我们就可以开始克隆声音了

第三步,克隆声音

比如我想用这个声音模型去唱廖俊涛的《谁》,先把网上把这首歌下载下来,然后对这首歌进行处理,把伴奏和人声分离。

如果你想处理的声音文件是纯人声,没有伴奏的话,就可以直接跳过这一步:

选择“伴秦人声分离&去混响&去回声”,把下截好的歌曲文件直接拖拽到这里:

945

然后选择模型对歌曲进行处理,模型的具体作用上面有详细的解释
1、分离伴奏: 选择HP2或者HP3模型

946

然后点击转换,看到右侧是这个提示就说明分离伴奏成功了:

947

打开RVC文件夹里的opt文件夹,就会看到分离好的两段音频,选择vocal开头的音频文件进行去除混响操作:

948

2、去除混响:

把上一步处理好的vocal文件拖拽到这里,选择onnx模型,点击转换,这一步会稍微慢一点,大概需要几分钟。

949

然后就会得到去除混响后的文件:

950

3、去除延迟

把上一步处理过的文件拖拽进来,选择VR模型,点击转换:

951

然后就得到彻底处理好的音频文件了:

952

在模型推理下选择声音模型,上传刚刚处理好的音频文件,设置声音转换的升key或者降key,也可以设置为0.
不升不降,接着选择算法,各种算法都有清晰的解释,再下拉选择一下index路径,点击转换就可以了。

953

(如果这一步转换失败,可以在下方批量转换区域按照上述步骤进行同样的操作就可以了)然后我们就得到声音克隆后的《谁》的清唱音频了

954

第四步,合并音频

接着我们把人声和伴奏进行一个合并,制作出一首完整的歌曲

下载格式工厂:

955

在音频栏选择混合功能:

956

点击添加文件,上传人声和伴奏,点击确定:

957

点击开始,一首完整的《谁》就做好啦:

958

如何克隆自己声音:

首先需要准备30分钟到50分钟的自己声音的音频,要尽量清晰并避免有任何人声以外的声音,然后复制文件夹路径:

959

在训练模式下,粘贴刚刚复制的文件夹路径,设置总训练路径和显卡batch_size,显卡最低要求4GB显存。
然后点击一键训练,耐心等待就可以得到自己的声音模型了,剩下的步骤就和上面一样了.

960

 

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容