因为人数和举动文字转WAV音频