它们也肯定是花费了更高的成本文字转WAV音频