大致的框架是李三斯创作出来的文字转WAV音频