总之还能用是类人物种之类的情况来解释文字转WAV音频