一般的程序是先做助理文字转WAV音频