他只能根据最可能的情形去推测文字转WAV音频