最理想的状态是维持目前这种状况文字转WAV音频