所以第一种方案直接被out了文字转WAV音频