又似乎是对旁边的两人说的文字转WAV音频