然后中间已经刻意空出来的场地文字转WAV音频