登录注册

盘酷分享站_永久百度网盘会员一个月免费试用

2023-9-24 21:37| 发布者: admin| 查看: 322| 评论: 0

摘要: 盘酷分享站_永久百度网盘会员一个月免费试用

这里主要介绍下兼顾视觉特征表示和文本语义建模的预训练方案。

针对目前预训练方案存在的合成数据和下游任务差异大，以及忽略文本语义建模的问题，百度创造性地提出了图像文本多模态，自监督和强监督结合的预训练范式。通过使用Mask Image Modeling (MIM) 在大量的真实数据上面预训练encoder，以使encoder具备提取较好的视觉表征的能力。

同时，使用Mask Vision Language Modeling (MVLM) 的方式在合成数据上面预训练decoder，使decoder能够建模文本语义。此外，为了避免合成数据对encoder产生干扰，在训练decoder的时候，通过固定住encoder的参数，即保留了encoder在真实数据上面提取良好视觉表征的能力，同时也兼顾了语义的建模。

基于VIMER-MaskOCR底座大模型，百度网盘在各种类型的文字识别上效果提升显著，一起来看看效果：

更多资源访问【拾盘网】http://www.10pan.net/