反而由于前期投入了大量金钱在眼位上文字转WAV音频