剩下的分数可以视为文字转WAV音频