他之前的想法看来是正确的文字转WAV音频