语言技术图像识别、机器视觉
使用VIT把图片分成小补丁,编码补丁,使用多头自注意力,前馈全连接层,跳过连接构成编码器层,使用多个编码器层进行编码,最后形成边界框坐标输出
评论
您好 👋
我们能提供什么帮助?
向我们发送消息
常见问题、使用帮助、人工咨询等
使用微信扫一扫
评论