但如果站在人族的角度考虑文字转WAV音频