毕竟现在得到特征的是芬里尔文字转WAV音频