代表的更多是身份文字转WAV音频