苏凡猜测应该是后者文字转WAV音频