当前位置:首页 >> 药膳食疗 >> 从影像到文本,生成模型GIT在多模态领域的应用

从影像到文本,生成模型GIT在多模态领域的应用

发布时间:2023-04-23

ropy的计算。在适用交错压强的结构上下,我们注意到——在数据库幅度不多的情形,假设的显出才会较为不错,但是当数据库幅度并能增长并且锻炼完毕全的情形,交错压强的显出确实才会略逊于Self-Attention的结构上。我们显然Self-Attention的假设有助于可以爬行到更是多数据库基本特征。当然二者差别并并未更是大,不排除可以通过适用各种锻炼技巧使交错压强远超Self-Attention结构上的显出。为了简便起见,我们这里就考虑适用Self-Attention的结构上作为Text Decoder。

在Image Encoder中的,我们适用了Florence/CoSwin Encoder。这个Encoder是一个实锻炼假设,是由一个contrastive task锻炼而来。此假设类似于CLIP假设,不过用上另一个contrastive loss。这个loss才会难以实现,完毕全相同的上图才会被映射到相同的类别,这类False Positive的解决办法。某种程度来说,这个假设的Image Encoder适用了通过contrastive 来完毕形同实锻炼的实锻炼假设。

Text Decoder的加载是随机的。据我们的观察,如果我们适用了比如Bert这类实锻炼假设,其结果并不才会比起随机加载。这类现像的确实确实是在多抽象概念的使命下,假设对于上图形的解释是相当的重要的,而实锻炼句法假设作用的作用并并未那么大,也就造形同了其结果与随机加载并并未太大的区别。而随机加载有另一个高效率,我们可以更是少数人地去探索完毕全相同网络结构上对假设效用的不良影响。测试中的我们测试了完毕全相同的transformer block的个数,比如,6,12,24,36。结果注意到在我们的使命中的6层block是显出最难的,与在NLP使命中的层数越多多越多好的得出结论是同样的。造形同了这一结果的确实,据我们分析是因为在多抽象概念使命下,文档的间隔往往是较为短的,所涉及到的词汇幅度能比多于一般NLP使命。因为这个确实,所以在多抽象概念使命下,如果假设结构上过分复杂,在假设锻炼中的确实才会造形同了假设锻炼困难,难以优化等解决办法。这也就是为什么在我们这个使命下,6层transformer block可以远超符合要求效用。

锻炼假设适用的使命是文档分解使命,即,理论上token是由上一个token实测而来。锻炼时适用的loss是Cross Entropy Loss。

虽然GIT假设的初始使命是为了Image Captioning而设计的,但在实际适用中的我们注意到,经过简便的系统对设计,这个假设也可以运用于在VQA和Video使命中的。在锻炼VQA假设中的,回传的文档是Question&Answer对,而实测负载有的结果是Answer。在Video使命中的,我们注意到假设在Video上的显出也远超实期, 具体认真法是我们从video中的抽走6个Frame,完毕形同encoding。其中的我们适用的temporal embedding 从0开始加载。但是在测试每一次中的注意到,temporal embedding在假设中的作用的作用太大。因为理论上研究注意到,在对video完毕形同管控时,假设可以从Frame中的就学到基本特征的资讯,而并不无需再上升embedding有助于。

得出结论:假设锻炼中的image encoder无需选取较为大的,锻炼数据库用上的是0.8B pairs。

便是

03

GIT与理论上线性较为

Flamingo

与GIT架构类似,区别是:Image Encoder,Vison Encoder和Text Decoder的参数是移出有的,通过投身于其他有助于, 如random initialized module,perceiver resampler,使得假设可以学到数据库基本特征。

Coca

同样由Image Encoder和Text Decoder合组,不过Text Decoder由两大多无关联,大致相同Unimodal Text Decoder和Multimodal Text Decoder才会去分别计算Contrastive loss和Captioning Loss。

下上图展示了我们的假设与Flamingo和Coca的显出对比:

从结果可以窥见有,我们的假设要能比高于Falmingo和Coca假设。在少幅度锻炼数据库下,我们的假设在某些使命中的可以远超比起其他两个假设的效用。另外,我们的假设与其他目标样品线性相较,锻炼数据库并不无需同样的标注数据库;与其他场面文档无关的线性相较,锻炼数据库并不无需OCR文档。

1. 为什么GIT假设的效用才会这么好?

上上图推测在完毕全相同的数据库幅度和假设大小情形,假设的显出基因序列。我们可以得出有一个得出结论,假设的规模越多大越多好,数据库幅度越多多越多好。但是在相片左侧,COCO假设在数据库远超一定幅度之后假设显出并不才会再随着数据库幅度的上升而提高。众所周知在Base假设上,数据库越多多,假设显出反而越多差,确实的确实是Coco的粗略库已经囊括了大大多上述情况,额外的数据库并不才会导致更是多价值,反而才会造形同了优化困难解决办法。

2. 假设显出回顾

从上上图可以窥见有,GIT假设的显出相比较比起理论上SOTA,众所周知是在TextCaps这个使命中的GIT假设可以超过有机体显出。

3. 假设在相片分类法使命上的显出

GIT假设也可以用于相片分类法使命。之前的相片分类法使命的传统意义认真法是要而无须确定相片有多少类型,在已知类型的前提下完毕形同假设锻炼。而我们的GIT假设是一个分解假设,相片类别可以当作负载有文档作为锻炼数据库回传假设,锻炼时并不无需而无须明白所有相片类别,所以不存在out-of-vocabulary的解决办法。从结果窥见有,与其他传统意义线性基因序列,GIT的显出很有竞争性,并且计算幅度要高于其他ensemble 或者multi-scale 假设。

右面是GIT假设在ImageNet上的显出,从注意到有的这几个事例我们可以窥见有GIT假设与SOTA假设有2-3个点的差距。通过分析false positive,我们注意到GIT假设在ImageNet数据库上的错误推定都是大于有我们实期的。因为我们的假设无需认真两个推定,一个是label name一个是text captioning。

4. 假设在场面文档比对使命上的显出

假设准确率平均可远超92.9%。与其他理论上SOTA假设的显出也超群。

便是

04

回顾

GIT作为分解假设,可以运用于到多类使命中的,比如相片分类法、文档比对、VQA等等。在12个vision-language使命中的创造了一新SOTA。众所周知在TextCaps这个使命中的,第一次挤下有机体显出。提出有了一个一新分类法方案,通过分解假设来完毕形同分类法使命,从而实现在锻炼和实测阶段都可以Vocabulary-free。

以前的透过就到这里,谢谢大家。

透过讲者:王建峰博士 微软

编辑整理:Yishu Morningstar Inc

出有品平台:DataFunTalk

01/透过讲者

王建峰|微软 Principal Researcher

I am a Principal Researcher at Microsoft Cloud & AI and focus on large-scale multimodal representation learning recently. I have broad research interest, including computer vision, e.g. image classification and object detection, and vision-language intelligence, e.g. vision-language pretraining and visual question answering. I received the B.Eng. degree and PhD degree from the University of Science and Technology of China (USTC) .

02/关于我们

DataFun:专注于大数据库、机器学习新科技系统设计的透过与学术交流。发起于2017年,在北京、上海、蛇口、杭州等城市举办活动超过100+方以和100+线上罗尼、新浪网及峰才会,已邀请超过2000位研究专家和语言学家进行透过。其政府部门号 DataFunTalk 累计生产商原创文中800+,百万+阅读,15万+精准粉丝。

宝宝不吃饭怎么调理
利活牌乳酸菌素片
怎么快速治疗拉肚子
肌肉拉伤怎么缓解疼痛
软肝吃复方鳖甲软肝片怎么样
标签:
友情链接: