如果只是单纯能感应到文字转WAV音频