根本无法准确的捕捉到他的身形文字转WAV音频