由于人族有两个分支文字转WAV音频