那么就用足够残酷的现实来作出取舍文字转WAV音频