旅游网站建设案例,品牌推广公司排名,wordpress 双域名,重庆百度整站优化效果演示
先看效果#xff0c;感兴趣的可以继续读下去。
没有找到可以上传视频的地方#xff0c;大家打开这个网盘链接观看#xff1a;https://www.aliyundrive.com/s/CRBm5NL3xAE
基本方法
搞一张照片#xff0c;搞一段语音#xff0c;合成照片和语音#xff0c;同…效果演示
先看效果感兴趣的可以继续读下去。
没有找到可以上传视频的地方大家打开这个网盘链接观看https://www.aliyundrive.com/s/CRBm5NL3xAE
基本方法
搞一张照片搞一段语音合成照片和语音同时让照片中的人物动起来特别是头、眼睛和嘴。
语音合成
语音合成的方法很多也比较成熟了大家可以选择自己方便的直接录音也可以只要能生成一个语音文件就行了。
这里分享一个文字转语音的工具在线免费文字转语音 - TTSMaker | 马克配音https://ttsmaker.cn/在线免费文字转语音 - TTSMaker | 马克配音不用注册不用花钱使用起来很简单。广告时间目前国内的AI资源也很丰富了我做了一个汇总https://toai.fireflysoft.net不用特殊网络设置快速找到想用的AI工具
如下图所示 输入你的文字选择播音员填写验证码点击转换按钮。 生成速度挺快的然后在左边这里可以试听和下载。 照片生成
这里介绍的方法需要使用比较真实的照片如果太二次元了视频人脸的效果会比较差。大家可以使用自己真实的照片也可以使用Stable Diffusion生成一张也可以使用图生图稍微改造下自己的照片总之要尽量真实一些。
另外这张照片尽量正面一些侧脸生成的视频可能会出现头和身体拼接不太好的情况所以如果有证件照是最好的。
我这里演示生成一张真实照片看AI生成的美女都有些厌倦了今天我们生成个帅哥。
1生成工具使用 Stable Diffusion WebUI模型选择 realisticVisionV20这个模型生成的图片看起来比较真实。 提示词best quality, front photo of a young man, chinese, portrait,black t-shirt, short hair, (looking at viewer), Sense of technology, in an office, computers, screen, books, upper body,
反向提示词 easy_negative, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),
2采样器这里选择DPM 2M SDE Karras选择别的也没问题只要生成一张人物照片就可以了。
采样步数根据采样器选择这里是40建议20-40以实际出图效果为准。
尺寸这里选择竖版放到手机里会比较合适。
生成次数建议先把提示词写好了然后一次多生成几张从里边选择最好的节省时间。 3这里我选择一张自认为看起来还不错的图片把这张图下载下来备用。 视频合成
这是最关键的一步这里还是使用Stable Diffusion WebUI不过只是使用其中的一个插件这个插件的名字就是SadTalker。
SadTalker是Github上开源的主要成员也都是国内的技术大佬地址https://github.com/OpenTalker/SadTalker.git
这里默认大家都安装好Stable Diffusion WebUI了如果还没安装过的朋友建议去AutoDL上租一个服务器体验下方便不贵选择A5000规格的就差不多了安装教程网上应该挺多的这里就不啰嗦了还不会的可以联系我。
关于SadTalker插件的安装方法我这里介绍两种。
安装方法一
适合访问Github或者外网比较顺畅的用户因为需要自动下载很多东西。
在SD WebUI中通过扩展插件页面安装如下图所示 这个插件需要下载的文件很多有的文件还比较大请耐心等待。如果不确定是不是出问题了可以看看控制台输出的内容有没有错误。
安装完了不要忘了重启Stable Diffusion要整个重启不要只重启WebUI。
安装方法二
适合访问外网不太方便的用户把这个插件需要的文件通过别的方式提前下载好比如迅雷下载只要上传到指定的目录就行了。
主程序
放到 stable-diffusion-webui/extensions/SadTalker
https://github.com/OpenTalker/SadTalker/archive/refs/heads/main.zip
视频模型
放到 stable-diffusion-webui/extensions/SadTalker/checkpoints
https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00109-model.pth.tar
https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00229-model.pth.tar
https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_256.safetensors
https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_512.safetensors
修脸模型
放到 stable-diffusion-webui/extensions/SadTalker/gfpgan/weights 和 stable-diffusion-webui/models/GFPGAN
https://github.com/xinntao/facexlib/releases/download/v0.1.0/alignment_WFLW_4HG.pth
https://github.com/xinntao/facexlib/releases/download/v0.1.0/detection_Resnet50_Final.pth
https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.4.pth
https://github.com/xinntao/facexlib/releases/download/v0.2.2/parsing_parsenet.pth 为了方便使用这种方式部署我也把相关的文件做了一个打包大家不用一个一个下载。关注公众号萤火遛AI发消息数字人即可获得下载地址。
1首先把文件下载到本地或者你的云环境这里以AutoDL为例我把它放到 /root 目录中。 2然后解压文件到 stable diffusion webui的扩展目录并拷贝几个文件到SD模型目录 tar -xvf /root/SadTalker.tar -C /root/stable-diffusion-webui/extensions
cp -r /root/stable-diffusion-webui/extensions/SadTalker/gfpgan/weights/* /root/stable-diffusion-webui/models/GFPGAN/ 看到下边的结果就基本上差不多了。
扩展目录下边有这个文件夹 SD models 目录下有这几个文件 部署完毕不要忘了重启。
使用方法
在SD WebUI的Tab菜单中找到SadTalker按照下边的顺序进行设置。 1、上传人物照片。
2、上传语音文件。
3、选择视频人物的姿势实际就是人说话时头部的动作个人感觉有点摇头晃脑可以使用不同的数字看看。
4、分辨率512的视频分辨率比256大。
5、图片处理方法corp是从图片截取头部做视频resize适合大头照或者证件照full就是全身照做视频extcorp和extfull没做细致研究大家自己对比下。
6、Still Model让头部不要动作太大以致偏离身体负面效果是头不怎么动了。
7、GFPGAN修脸说话时嘴和眼的动作可能让脸有些变形选上他让脸部好看一些。
最后点击“生成”根据硬件的运行速度和你的勾选设置可能需要几分钟的时间耐心等待。
我这里生成的视频视频太占地截个图算了) 可能遇到的问题
(1) 启动的时候报错SadTalker will not support download... 这个错误就是模型下载不下来告诉我们要去手动下载。
这里有两个方法
执行下边的命令触发下载注意 cd 之后的路径替换成你自己的SadTalker安装路径 cd stable-diffusion-webui/extensions/SadTalker
chmod 755 scripts/download_models.sh
scripts/download_models.sh 下载所有的模版然后手工上传到相关目录上边安装方法二中已经介绍过可以使用我打包好的文件包。 (2) 合成视频时报错No module named xxx 使用 pip install xxx 就可以了注意如果使用了python虚拟环境需要先激活它比如这里要先执行source xxx。 source /root/stable-diffusion-webui/venv/bin/activate
pip install librosa 3合成视频时报错No such file or directory: /tmp/gradio/xxx创建目录就可以了 mkdir -p /tmp/gradio 4如果提示找不到 ffmpeg我这里没遇到如果出现请先下载安装http://ffmpeg.org/download.html 以上就是本文的主要内容了使用这种方法就可以无限制作自己的AI专属数字人想要什么样的风格都可以想做多少个都可以有兴趣的快去试试吧。当然要遵纪守法不要搞出事情来。
如果你有任何问题欢迎与我交流V/Xyinghuojun007。