但一般都是残篇文字转WAV音频