现在的他还只能逐层运用文字转WAV音频