然后花费很长时间来满满布局文字转WAV音频