口语基本上为0分……文字转WAV音频