自然是经过前期的大量探测文字转WAV音频