他们最多只能兼顾一端文字转WAV音频