关键在于如何把这两个人的主观能动性调动起来文字转WAV音频