哈尔滨专门做网站,域名搜索引擎,专门做汽车配件的外贸网站,iapp怎么把网站做软件本文主要是关于语音数据在处理过程中的一些脚本文件以及实例#xff0c;所有代码只需要更改所需处理的文件路径#xff0c;输出路径等#xff0c;全部可运行。
目录
所需环境
方法1#xff1a;将一整段音频按时间批量切成一个一个音频
方法2#xff1a;将一整段音频按…本文主要是关于语音数据在处理过程中的一些脚本文件以及实例所有代码只需要更改所需处理的文件路径输出路径等全部可运行。
目录
所需环境
方法1将一整段音频按时间批量切成一个一个音频
方法2将一整段音频按语句停顿批量切成一个一个音频
方法3将一个文件夹内的几整段音频批量切成一个一个音频
3.1.数据格式一个文件夹下的长几分多的音频wav文件按固定秒数切割
3.2.数据格式一个文件夹下的长几分多的音频mp3文件按固定秒数切割
3.3.数据格式一个文件夹下的长几分多的音频wav文件按语句停顿切割
扩展
将pcm文件批量处理成wav文件
Linux下查询文件夹中文件数量的方法
使用ls命令和wc命令
WAV格式文件详解 所需环境
本文环境Linux
pydub(安装pip3 install pydub)
ffmpeg(apt install ffmpeg) 方法1将一整段音频按时间批量切成一个一个音频
数据格式一个长三分五十秒的音频 # split_wav_time.py
from pydub import AudioSegment
from pydub.utils import make_chunksaudio AudioSegment.from_file(his_one/1.wav, wav)#size 10000 #切割的毫秒数 10s10000
size 60000 #切割的毫秒数 60s60000chunks make_chunks(audio, size) #将文件切割为60s一个for i, chunk in enumerate(chunks):chunk_name new-{0}.wav.format(i)print(chunk_name)chunk.export(chunk_name, formatwav)
运行命令
python split_wav_time.py 结果 方法2将一整段音频按语句停顿批量切成一个一个音频
数据格式一个长几分多的音频 利用split_on_silencesoundmin_silence_len, silence_thresh, keep_silence400函数
第一个参数为待分割音频第二个为多少秒“没声”代表沉默第三个为分贝小于多少dBFS时代表沉默第四个为为截出的每个音频添加多少ms无声
from pydub import AudioSegment
from pydub.silence import split_on_silencesound AudioSegment.from_mp3(his_one/1.wav)
loudness sound.dBFS
#print(loudness)chunks split_on_silence(sound,# must be silent for at least half a second,沉默半秒min_silence_len430,# consider it silent if quieter than -16 dBFSsilence_thresh-45,keep_silence400)
print(Len:, len(chunks))# 放弃长度小于2秒的录音片段
for i in list(range(len(chunks)))[::-1]:if len(chunks[i]) 2000 or len(chunks[i]) 10000:chunks.pop(i)
print(取有效分段(大于2s小于10s), len(chunks))
for x in range(0,int(len(sound)/1000)):print(x,sound[x*1000:(x1)*1000].max_dBFS)
for i, chunk in enumerate(chunks):chunk.export(cutwav_{0}.wav.format(i), formatwav)#print(i) 结果 方法3将一个文件夹内的几整段音频批量切成一个一个音频
3.1.数据格式一个文件夹下的长几分多的音频wav文件按固定秒数切割 from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re# # 循环目录下所有文件
for each in os.listdir(/workspace/tts/PolyLangVITS/history): #循环目录filename re.findall(r(.*?)\.wav, each) # 取出.wav后缀的文件名print(each)if each:# filename[0] .wav# print(filename[0])mp3 AudioSegment.from_file(/workspace/tts/PolyLangVITS/history/{}.format(each), wav) # 打开mp3文件
# # # mp3[17*1000500:].export(filename[0], formatmp3) #size 15000 # 切割的毫秒数 10s10000chunks make_chunks(mp3, size) # 将文件切割为15s一块for i, chunk in enumerate(chunks):chunk_name {}-{}.wav.format(each.split(.)[0],i)print(chunk_name)chunk.export(/workspace/tts/PolyLangVITS/preprodata/his_out/{}.format(chunk_name), formatwav) 结果 3.2.数据格式一个文件夹下的长几分多的音频mp3文件按固定秒数切割
from pydub import AudioSegment
from pydub.utils import make_chunks
import os, re
# #
# # 循环目录下所有文件
for each in os.listdir(D:/纯音乐): #循环目录filename re.findall(r(.*?)\.mp3, each) # 取出.mp3后缀的文件名print(each)if each:# filename[0] .wav# print(filename[0])mp3 AudioSegment.from_file(D:/纯音乐/{}.format(each), mp3) # 打开mp3文件
# # # mp3[17*1000500:].export(filename[0], formatmp3) #size 15000 # 切割的毫秒数 10s10000chunks make_chunks(mp3, size) # 将文件切割为15s一块for i, chunk in enumerate(chunks):chunk_name {}-{}.mp3.format(each.split(.)[0],i)print(chunk_name)chunk.export(D:/纯音乐分解/{}.format(chunk_name), formatmp3) 3.3.数据格式一个文件夹下的长几分多的音频wav文件按语句停顿切割 # Elena
# Date : 23.9.4import os, re
from pydub import AudioSegment
from pydub.silence import split_on_silence# # 循环目录下所有文件
for each in os.listdir(/workspace/tts/PolyLangVITS/history): filename re.findall(r(.*?)\.wav, each) # 取出.wav后缀的文件名print(each)if each:sound AudioSegment.from_file(/workspace/tts/PolyLangVITS/history/{}.format(each), wav)loudness sound.dBFS#print(loudness)chunks split_on_silence(sound,# must be silent for at least half a second,沉默半秒min_silence_len430,# consider it silent if quieter than -16 dBFSsilence_thresh-45,keep_silence400)print(Len:, len(chunks))# 放弃长度小于1秒的录音片段for i in list(range(len(chunks)))[::-1]:if len(chunks[i]) 1000 or len(chunks[i]) 10000:chunks.pop(i)print(Len (1s~10s wav file):, len(chunks))for x in range(0,int(len(sound)/1000)):print(x,sound[x*1000:(x1)*1000].max_dBFS)for i, chunk in enumerate(chunks):chunk_name {}-{}.wav.format(each.split(.)[0],i) chunk.export(/workspace/tts/PolyLangVITS/preprodata/his_out/{}.format(chunk_name), formatwav)#print(i)结果 使用 file 查询 wav
(WAV文件格式是Microsoft的RIFF规范的一个子集用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成分别为: RIFF WAVE ChunkFormat ChunkFact Chunk(可选)Data Chunk。具体格式如下) 扩展
将pcm文件批量处理成wav文件
import wave
import osfilepath data/ # 添加路径
filename os.listdir(filepath) # 得到文件夹下的所有文件名称
#f wave.open(filepath filename[1], rb)
#print(filename)
for i in range(len(filename)):with open(data/failename[i], rb) as pcmfile:pcmdata pcmfile.read()with wave.open(data/filename[i][:-3] .wav, wb) as wavfile:wavfile.setparams((1, 2, 16000, 0, NONE, NONE))wavfile.writeframes(pcmdata)
Linux下查询文件夹中文件数量的方法
使用ls命令和wc命令
使用ls命令的-l选项和管道操作符|结合wc命令来统计文件数量
查询当前文件夹下带有“wav”的文件数量
ls -l | grep wav | wc -l WAV格式文件详解
WAV文件格式是Microsoft的RIFF规范的一个子集用于存储多媒体文件。WAV(RIFF)文件由若干个Chunk组成分别为: RIFF WAVE ChunkFormat ChunkFact Chunk(可选)Data Chunk。具体格式如下
音频文件参数简介 对于形如44100HZ 16bit stereo 或者 22050HZ 8bit mono参数描述的音频文件其蕴含的文件参数包括
采样率声音信号在“模→数”转换过程中单位时间内采样的次数。 采样值采样精度每一次采样周期内声音模拟信号的积分值。 同时每个采样数据记录的是振幅, 而采样精度取决于储存空间的大小。 对于单声道mono文件采样数据为8位的短整数同时其采样精度有
1 字节8bit 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级 2 字节16bit 可以细到 65536 个数, 即为 CD 标准 4 字节32bit 能把振幅细分到 4294967296 个等级, 实在是没必要了。 对于双声道立体声stereo文件每次采样数据为一个16位的整数int且采样是双份的也为单声道文件的两倍。采样数据中高八位(左声道)和低八位(右声道)分别代表两个声道。
由于wav格式文件本质上为音频文件即可根据文件的大小、采样频率和采样大小估算文件的播放长度。 更多可查看Microsoft WAVE soundfile format (sapp.org)