我们其实在遵循一种潜在的标准去判断文字转WAV音频