虚拟的场景是模拟了实景文字转WAV音频