为何连位置都无法清晰描述文字转WAV音频