在普通人眼里看来是在思考文字转WAV音频