亦可接受口头指令见文字转WAV音频