就是让两个人能够交代相当的事实文字转WAV音频