通常只是族群文字转WAV音频