期刊屋 > 计算机

基于层次注意力机制的高效视觉问答模型

【摘要】视觉问答(visualquestionanswering，VQA)是深度学习领域的一个新挑战，需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性，设计了一种由两层注意力机制堆叠组成的层次注意力机制，帮助模型定位图片中与问题相关的信息，其中第一层注意力机制使用目标检测网络提取图片中物体的特征，第二层注意力机制引入问题特征。同时改进了现有的特征融合方式，消除对输入特征尺寸的限制。VQA数据集的测试结果显示，层次注意力机制使计数类问题的回答准确率提升了4%~5%，其他类型的问题回答准确率也有小幅提升。

【基于层次注意力机制的高效视觉问答模型】相关的文章

计算机最新帖子

1五阶WENO格式求解一维Euler方程
2基于漏磁检测机理的钢丝绳小缺陷精确化识别系统研究
3一种鲁棒的单目视觉里程计算法
4基于分解卷积神经网络的文本情感分析
5考虑异质车辆和顾客满意度的冷藏品配送路径优化
6耦合辅助信息的矩阵分解推荐模型
7计算机专业高职学生个性化晚自习方法研究
8基于LOD技术的多分辨率海水场景实时仿真
9基于增量学习的SVM-KNN网络入侵检测方法
10基于Copeland集结算法的协同空战机动决策方法

基于层次注意力机制的高效视觉问答模型

【基于层次注意力机制的高效视觉问答模型】相关的文章

计算机 最新帖子

热门文章

计算机最新帖子