学院网站改造方案,有哪些做平面设计好的网站有哪些内容,新媒体运营岗位职责,万网登录入口本文将为您介绍经典、热门的数据集#xff0c;希望对您在选择适合的数据集时有所帮助。
1
Chenyme-AAVT 更新时间#xff1a;2024-08-23 访问地址: GitHub 描述#xff1a; 这是一个全自动#xff08;音频#xff09;视频翻译项目。利用Whisper识别声音#xff0c;AI…本文将为您介绍经典、热门的数据集希望对您在选择适合的数据集时有所帮助。
1
Chenyme-AAVT 更新时间2024-08-23 访问地址: GitHub 描述 这是一个全自动音频视频翻译项目。利用Whisper识别声音AI大模型翻译字幕最后合并字幕视频生成翻译后的视频。还可以自动化生成营销图文、对字幕单独翻译。 数据集网址 https://github.com/Chenyme/Chenyme-AAVT 2
Seal-UniPlugin-Demo 更新时间2024-10-28 访问地址: GitHub 描述 跨平台Office文档、图片在线预览音视频播放原生插件Seal-OfficeOnline【非X5离线、组件嵌入、水印、WPS预览编辑】。百度OCR文字识别、证卡识别、票据识别原生插件Seal-OCR。百度语音在线识别原生插件Seal-VoiceASR。 数据集网址 https://github.com/silianpan/Seal-UniPlugin-Demo 3
Minerva 更新时间2024-05-23 访问地址: GitHub 描述 Minerva是一个便捷的音频工具支持快速进行录音PCM/MP3/WAV和VAD端点检测识别并保存活动语音。 数据集网址 https://github.com/LZ9/Minerva 4
voice_translation 更新时间2024-06-06 访问地址: GitHub 描述 该开源项目旨在提供一个能够自动检测并识别中文语音的模型支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件还是从视频中提取的mp4、m4a文件我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法我们的模型能够快速、准确地将声音转换为文字为用户提供便捷的语音识别体验。 数据集网址 https://github.com/zxx1218/voice_translation
5
LLM-Ceping 更新时间2024-11-20 访问地址: GitHub 描述 全方位大模型评测知识库 | 提示词工程Prompt Engineer、各渠道大模型榜单LeaderBoard、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音识别、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科考试、医学、信息学、心理学、指代消解、常识推理、知识问答... 数据集网址 https://github.com/AI-Ceping/LLM-Ceping 6
ModuleDevelop 更新时间2024-05-22 访问地址: GitHub 描述 Android原生开发apicloud的自定义模块。其中包含NFC高频模块对15.6mhz的读取单次可读单块或四块UHF超高频模块可读可写也可startActivity开启测试页面。新增语音唤醒识别模块进程守护模块消息通知模块。 数据集网址 https://github.com/yuanbao15/ModuleDevelop 7
meeting_system_backend 更新时间2024-05-09 访问地址: GitHub 描述 一个基于Vue3SpringbootTensorflow的音视频会议系统毕业设计音视频框架采用WebRTC。通过人脸识别实现拍照登录和入会身份检验。 数据集网址 https://github.com/xyongfeng/meeting_system_backend 8
SubGenie 更新时间2024-06-29 访问地址: GitHub 描述 SubGenie是一个开源工具整合了YouTube视频下载语音识别字幕翻译等功能主要用于为视频生成双语字幕。 数据集网址 https://github.com/1e0nhardt/SubGenie 9
upai 更新时间2024-06-03 访问地址: GitHub 描述 ymupai 是一款 Windows 平台的 语音识别 和 字幕生成 以及 音频/视频处理 软件。 主要特性 语音识别支持从种视频文件、音频文件中提取语音信息并进行语音识别支持实时从系统麦克风中接收语音数据并进行语音识别 语音转录支持实时语音转录基于麦克风实时输入的音频数据转录为文本字幕信息 字幕生成支持将语音识别生成的文本数据基于第三方API进行文本翻译生成双语字幕数据并进行同步播放展示 音视频处理支持对音视频文件进行播放、格式转换、视频截图等操作 一键自动化处理导入音视频文件配置字幕参数即可一键生成双语字幕数据 批量任务处理支持批量进行字幕生成可一次导入多个音视频文件批量进行语音识别、字幕生成操作 硬件加速数据处理支持CPU加速和GPU加速。对于安装有Nvidia系列GPU的Windows PC支持基于Nvidia CUDA的GPU加速对于未安装Nvidia GPU的Windows PC支持基于OpenVINO的CPU加速 数据集网址 https://github.com/ymtagi/upai 10
qtasr_demo 更新时间2024-11-16 访问地址: GitHub 描述 一个采集麦克风音频并进行波形图显示与实时语音识别的demo。 数据集网址 https://github.com/echcz/qtasr_demo END 温馨 小贴士
如有您想了解的计算机方向数据集
请联系我们
免费为您提供数据集搜索服务