概念上来说应该是四个足球场大小文字转WAV音频