这个精度其实也完全够用了文字转WAV音频