苛刻的条件主要包括三个部分文字转WAV音频