所以他们的关注点很快就转移了文字转WAV音频