而且在故宫的时候文字转WAV音频