他的表现更像是做作文字转WAV音频