从三个世界的相对关系和全图的比例来看文字转WAV音频