多模态学习,图文检索,给定文本搜索相关的图像或者给定图像搜索相关的文本,要求返回最相关的检索对象。
点击空白处退出提示
多模态学习,图文检索,给定文本搜索相关的图像或者给定图像搜索相关的文本,要求返回最相关的检索对象。
引入多层注意力机制,结合Transformer,在Flickr和MS-COCO数据集实现了2%左右的涨点,提升了检索准确度,可视化注意力机制效果明显,论文成功发表在计算机顶会ijcai。
负责全项目代码实现,模型设计、数据集读取、dataloader重构、表格与图的绘制、论文撰写以及与审稿人的交流。




评论