而他却可以直接推算出这么多人的文字转WAV音频