所以他考虑了片刻文字转WAV音频