登录注册

盘酷分享站_永久百度网盘会员一个月免费试用

2023-9-26 21:40| 发布者: admin| 查看: 197| 评论: 0

摘要: 盘酷分享站_永久百度网盘会员一个月免费试用

Hybrid神经网络结构，它的主体由卷积神经网络以及带有自注意力机制的Transformer网络组成。卷积神经网络主要负责捕捉输入图像的视觉特征，Transformer网络则主要负责捕捉输入图像的语义上下文特征。

它的优势在于：一是在输入阶段仅仅只需要图像输入，网络利用卷积神经网络以及Transformer网络来捕捉不同模态信息，并实现多模态信息的深度融合。相比于其他多模态方法需要通过OCR引擎来获得文本结果作为输入，VIMER-StrucTexT 2.0的输入更加简洁。二是利用多模态信息，进一步加深模型对于输入文档信息的理解。

如上图所示，模型首先将文档图像作为输入，使用卷积神经网络进行特征提取以及降低图像特征尺度，然后再将图像特征交给Transformer网络进行语义提取，最终将图像特征以及语义特征融合，供下游任务使用。

更多资源访问【拾盘网】http://www.10pan.net/