后者至少还可以避开文字转WAV音频