又或者是她从口型读出来了文字转WAV音频