成都网站维护多少钱,优秀的移动端网站,怎么给自己的公司建立网站,深圳做网站开发费用引言
2023年#xff0c;IT领域的焦点无疑是ChatGPT#xff0c;然而#xff0c;同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。
Whisper是一款自动语音识别系统#xff0c;可以识别来自99种不同语言的语音并将其转录为文字。
如果说ChatGPT为计算机赋予了大脑IT领域的焦点无疑是ChatGPT然而同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。
Whisper是一款自动语音识别系统可以识别来自99种不同语言的语音并将其转录为文字。
如果说ChatGPT为计算机赋予了大脑那么Whisper则为其赋予了耳朵。
想象一下在企业应用领域我们能够利用Whisper将语音转化为文字然后再借助ChatGPT来进行翻译或总结。
接下来我们将以实际操作为出发点逐步向您介绍如何利用AI实现音频、视频的内容总结。 前期准备
GPU
首先我们需要解决硬件方面的问题。
虽然OpenAI提供了HTTP API来调用Whisper但对于企业而言将内部内容交给OpenAI始终存在一定的安全风险。
本地运行AI模型则需要大量的计算资源。
如果仅使用CPU进行计算一个大约10分钟的语音转录任务可能需要花费4倍以上的时间。
因此我们必须引入GPU进行计算加速。
考虑到Colab在国内无法访问我们建议在Kaggle上运行演示。
请大家注册Kaggle账户并完成手机号验证Kaggle的GPU需要完成手机号验证后才能使用。 Azure ChatGPT
ChatGPT是我们语音内容总结的核心工具。
我们建议使用Azure OpenAI服务。
您可以参考以下文章来申请Azure OpenAI Service申请教程 kintone
kintone是我们用来存储记录的平台。我们需要创建一个名为“Reports”的应用程序APP并定义以下表单字段 运行
您可以在这里找到演示代码
GitHub - kintone-samples/SAMPLE-kintone-narrator-cn: Utilize AI to summarize video/audio content and upload it to Kintone.
点击“open in kaggle”。 请按照以下步骤操作
1.点击Edit进入编辑状态 2.在右侧的Notebook options中我们需要将Acceleator选为GPU T4*2 注 没验证手机的账户不会显示Acceleator选项。 GPU P100不支持当前默认float16运算选择该显卡的用户请将“语音转录对齐”中的compute_type设为float32。 TPU尚未测试支持。 3.找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元cell然后根据您自己的环境设置进行配置。 4.点击页面上方的“Run All”按钮以开始运行演示。 等待程序运行结束即可。
下面我将对会每个代码单元的功能进行简要说明感兴趣的可以继续往下研究
Whisper NemoASR ChatGPT 实现语言转文字、说话人识别、内容总结等功能