北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点
#github #项目 #开源

北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。
这次真的AI能理解搞笑视频笑点在哪里了


项目地址https://github.com/PKU-YuanGroup/Video-LLaVA
 
 
Back to Top