毕竟给出创意的依旧是人类文字转WAV音频