从影像到文本,生成模型GIT在多模态领域的应用
发布时间:2023-04-23
在Image Encoder中的,我们适用了Florence/CoSwin Encoder。这个Encoder是一个实锻炼假设,是由一个contrastive task锻炼而来。此假设类似于CLIP假设,不过用上另一个contrastive loss。这个loss才会难以实现,完毕全相同的上图才会被映射到相同的类别,这类False Positive的解决办法。某种程度来说,这个假设的Image Encoder适用了通过contrastive 来完毕形同实锻炼的实锻炼假设。
Text Decoder的加载是随机的。据我们的观察,如果我们适用了比如Bert这类实锻炼假设,其结果并不才会比起随机加载。这类现像的确实确实是在多抽象概念的使命下,假设对于上图形的解释是相当的重要的,而实锻炼句法假设作用的作用并并未那么大,也就造形同了其结果与随机加载并并未太大的区别。而随机加载有另一个高效率,我们可以更是少数人地去探索完毕全相同网络结构上对假设效用的不良影响。测试中的我们测试了完毕全相同的transformer block的个数,比如,6,12,24,36。结果注意到在我们的使命中的6层block是显出最难的,与在NLP使命中的层数越多多越多好的得出结论是同样的。造形同了这一结果的确实,据我们分析是因为在多抽象概念使命下,文档的间隔往往是较为短的,所涉及到的词汇幅度能比多于一般NLP使命。因为这个确实,所以在多抽象概念使命下,如果假设结构上过分复杂,在假设锻炼中的确实才会造形同了假设锻炼困难,难以优化等解决办法。这也就是为什么在我们这个使命下,6层transformer block可以远超符合要求效用。
锻炼假设适用的使命是文档分解使命,即,理论上token是由上一个token实测而来。锻炼时适用的loss是Cross Entropy Loss。
虽然GIT假设的初始使命是为了Image Captioning而设计的,但在实际适用中的我们注意到,经过简便的系统对设计,这个假设也可以运用于在VQA和Video使命中的。在锻炼VQA假设中的,回传的文档是Question&Answer对,而实测负载有的结果是Answer。在Video使命中的,我们注意到假设在Video上的显出也远超实期, 具体认真法是我们从video中的抽走6个Frame,完毕形同encoding。其中的我们适用的temporal embedding 从0开始加载。但是在测试每一次中的注意到,temporal embedding在假设中的作用的作用太大。因为理论上研究注意到,在对video完毕形同管控时,假设可以从Frame中的就学到基本特征的资讯,而并不无需再上升embedding有助于。
得出结论:假设锻炼中的image encoder无需选取较为大的,锻炼数据库用上的是0.8B pairs。
便是
03
GIT与理论上线性较为
Flamingo与GIT架构类似,区别是:Image Encoder,Vison Encoder和Text Decoder的参数是移出有的,通过投身于其他有助于, 如random initialized module,perceiver resampler,使得假设可以学到数据库基本特征。
Coca同样由Image Encoder和Text Decoder合组,不过Text Decoder由两大多无关联,大致相同Unimodal Text Decoder和Multimodal Text Decoder才会去分别计算Contrastive loss和Captioning Loss。
下上图展示了我们的假设与Flamingo和Coca的显出对比:
从结果可以窥见有,我们的假设要能比高于Falmingo和Coca假设。在少幅度锻炼数据库下,我们的假设在某些使命中的可以远超比起其他两个假设的效用。另外,我们的假设与其他目标样品线性相较,锻炼数据库并不无需同样的标注数据库;与其他场面文档无关的线性相较,锻炼数据库并不无需OCR文档。
1. 为什么GIT假设的效用才会这么好?
上上图推测在完毕全相同的数据库幅度和假设大小情形,假设的显出基因序列。我们可以得出有一个得出结论,假设的规模越多大越多好,数据库幅度越多多越多好。但是在相片左侧,COCO假设在数据库远超一定幅度之后假设显出并不才会再随着数据库幅度的上升而提高。众所周知在Base假设上,数据库越多多,假设显出反而越多差,确实的确实是Coco的粗略库已经囊括了大大多上述情况,额外的数据库并不才会导致更是多价值,反而才会造形同了优化困难解决办法。
2. 假设显出回顾
从上上图可以窥见有,GIT假设的显出相比较比起理论上SOTA,众所周知是在TextCaps这个使命中的GIT假设可以超过有机体显出。
3. 假设在相片分类法使命上的显出
GIT假设也可以用于相片分类法使命。之前的相片分类法使命的传统意义认真法是要而无须确定相片有多少类型,在已知类型的前提下完毕形同假设锻炼。而我们的GIT假设是一个分解假设,相片类别可以当作负载有文档作为锻炼数据库回传假设,锻炼时并不无需而无须明白所有相片类别,所以不存在out-of-vocabulary的解决办法。从结果窥见有,与其他传统意义线性基因序列,GIT的显出很有竞争性,并且计算幅度要高于其他ensemble 或者multi-scale 假设。
右面是GIT假设在ImageNet上的显出,从注意到有的这几个事例我们可以窥见有GIT假设与SOTA假设有2-3个点的差距。通过分析false positive,我们注意到GIT假设在ImageNet数据库上的错误推定都是大于有我们实期的。因为我们的假设无需认真两个推定,一个是label name一个是text captioning。
4. 假设在场面文档比对使命上的显出
假设准确率平均可远超92.9%。与其他理论上SOTA假设的显出也超群。
便是
04
回顾
GIT作为分解假设,可以运用于到多类使命中的,比如相片分类法、文档比对、VQA等等。在12个vision-language使命中的创造了一新SOTA。众所周知在TextCaps这个使命中的,第一次挤下有机体显出。提出有了一个一新分类法方案,通过分解假设来完毕形同分类法使命,从而实现在锻炼和实测阶段都可以Vocabulary-free。以前的透过就到这里,谢谢大家。
透过讲者:王建峰博士 微软
编辑整理:Yishu Morningstar Inc
出有品平台:DataFunTalk
01/透过讲者
王建峰|微软 Principal Researcher
I am a Principal Researcher at Microsoft Cloud & AI and focus on large-scale multimodal representation learning recently. I have broad research interest, including computer vision, e.g. image classification and object detection, and vision-language intelligence, e.g. vision-language pretraining and visual question answering. I received the B.Eng. degree and PhD degree from the University of Science and Technology of China (USTC) .
02/关于我们
DataFun:专注于大数据库、机器学习新科技系统设计的透过与学术交流。发起于2017年,在北京、上海、蛇口、杭州等城市举办活动超过100+方以和100+线上罗尼、新浪网及峰才会,已邀请超过2000位研究专家和语言学家进行透过。其政府部门号 DataFunTalk 累计生产商原创文中800+,百万+阅读,15万+精准粉丝。
。宝宝不吃饭怎么调理利活牌乳酸菌素片
怎么快速治疗拉肚子
肌肉拉伤怎么缓解疼痛
软肝吃复方鳖甲软肝片怎么样
上一篇: 刹车上的苹果心,跳不动了
下一篇: 中青旅总裁林军辞任
-
苹果tvOS 16Valve预览版Beta 2发布
苹果时至今日移动设备了 iOS 16 iPadOS 16 开发团队修正版 Beta 2 修正,还移动设备了 tvOS 16 Beta 2 系统修正,确切补丁是 20J5319h。与其他预览版有所不
- 2025-05-1640岁任家萱与男友约会被拍,无名指婚戒引关注,女方曾扬言不迎娶
- 2025-05-16“周扒皮都惊掉了下巴”,医学专家提议“付费上班”,解决大学生就业
- 2025-05-16贾静雯16岁大丈夫晒美照,染黄发小露美背显成熟,高颜值被赞逆袭
- 2025-05-16江西大学生观看不雅视频被斥责,一怒之下跳楼,家长:老师有责任
- 2025-05-16杨丞琳的中年灾难有多难?目前的情况来看,她的情况还不如王心凌
- 2025-05-16迪士尼为什么越来越不被中国观众待见?关键是他们太喜欢裹私货了
- 2025-05-16刚刚,2022年湖北录取作文题揭晓!
- 2025-05-16仅仅3天,新冠痊愈、脑中风出院、患癌低剂量无效,娱乐圈悲喜交加
- 2025-05-16记得汶川地震中丢下学生的“范跑跑”吗?知情人:已辞去过得滋润
- 2025-05-16“学会后回来方便多了!”金山志愿者帮这些老年人get了新技能