我的想法是把工作适当在细分一下文字转WAV音频