不过核心都是围绕着那块地文字转WAV音频