他们的感知都至少能覆盖古堡主体文字转WAV音频