对话在最初就是不平等的文字转WAV音频