而他只是说出这个理论或许比较好文字转WAV音频