既然成功的几率只有一层文字转WAV音频