所以他们更偏向于摄取这类文字转WAV音频