其中有十五个人类区域文字转WAV音频