对于细节的观察就强了很多文字转WAV音频