#github #项目 #开源
北京大学与腾讯等机构的研究者们提出了多模态对齐框架 ——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能,刷榜多项评估榜单,这标志着多模态学习领域向着「大一统」理念迈进了重要一步。
引用知乎的理解:LanguageBind 是以语言模态为中心进行直接对齐(VIDAL-10M数据集贡献很大),下游任务大多与语言相关,所以共享语义嵌入空间更好
项目地址:https://github.com/PKU-YuanGroup/LanguageBind