盘酷分享站_永久百度网盘会员一个月免费试用 Hybrid神经网络结构,它的主体由卷积神经网络以及带有自注意力机制的Transformer网络组成。卷积神经网络主要负责捕捉输入图像的视觉特征,Transformer网络则主要负责捕捉输入图像的语义上下文特征。 它的优势在于:一是在输入阶段仅仅只需要图像输入,网络利用卷积神经网络以及Transformer网络来捕捉不同模态信息,并实现多模态信息的深度融合。相比于其他多模态方法需要通过OCR引擎来获得文本结果作为输入,VIMER-StrucTexT 2.0的输入更加简洁。二是利用多模态信息,进一步加深模型对于输入文档信息的理解。 如上图所示,模型首先将文档图像作为输入,使用卷积神经网络进行特征提取以及降低图像特征尺度,然后再将图像特征交给Transformer网络进行语义提取,最终将图像特征以及语义特征融合,供下游任务使用。 更多百度网盘超级会员使用技巧百度搜索盘酷分享站,还有百度网盘超级会员账号领取哦! ↓ ↓ 免费领取百度网盘超级会员试用流程说明 流程说明:打开手机微信,点击任意好友进入聊天框,长按复制下面内容 #小程序://腾讯文档/kfBj0TQ5ELJEG3E 发送给好友并点击参加活动。 |