因为这在他们的认知中是最好的选择文字转WAV音频