对于取舍是分辨的非常清楚的文字转WAV音频