他们关注的更多的是背景文字转WAV音频