因为后者是有备而来文字转WAV音频