这样或许还能保留一部分独立文字转WAV音频