他的方案只是一个草案文字转WAV音频