最终都会被分解成文字转WAV音频