全部都清晰的被自己感知到文字转WAV音频