他接下来要做的就是分辨哪些是真文字转WAV音频