几乎是后面第二到第五名的总和文字转WAV音频