其实是一个种族文字转WAV音频