应该是一种更高层次的指引文字转WAV音频