也要考虑到其他种族和类别的理解能力文字转WAV音频