因为它并不能直接精细控制文字转WAV音频