这个结论是建立在几个假设因素上的文字转WAV音频