第一个原则就是存在先于本质文字转WAV音频