所以这两个领域都是只能单向消耗文字转WAV音频