其中有三只明显体型较大的文字转WAV音频