今天分享的是:殷述康:多模态大语言模型领域进展分享
报告共计:42页
大语言模型(LLM)近年来发展迅速,但存在无法处理多模态输入等固有局限。多模态大语言模型(MLLM)随之兴起,在短短两年间已有上百个模型涌现,包括大企业的闭源模型和学术社区的开源模型。
MLLM能够处理传统视觉/多模态任务,如图片描述、计数、定位等,还能完成更复杂的复合型任务,如基于视觉的感知和理解、图表推理、根据图表写代码等。其模型架构通常包含编码器、连接器和大语言模型三个部分,数据与训练方法包括模态对齐训练和指令微调训练两个阶段,评测方式包括常规任务Benchmark和专门Benchmark。
MLLM不断演进,朝着更高分辨率发展,以获取更多信息,可通过使用更大分辨率微调或切块处理大分辨率图片等方式实现;输入形式从单图扩展到多图、视频;I/O模态支持也更加丰富,可输出图文交错内容,甚至生成除文本外的其他模态信息,如图片、音频、视频等。
团队在多模态大语言模型领域开展了相关工作,如缓解幻觉问题,利用外部反馈和传统视觉模型提升感知能力,辅助大语言模型修正幻觉;构建长视频理解测评Video - MME,解决现存测试集在评估长视频理解能力方面的不足,对开源与商业大模型进行综合评测;提升多模态交互体验,探索开源方案VITA,实现屏蔽背景噪音、支持打断输出快速响应新query等功能。
展开剩余69%未来,MLLM需要支持更长的上下文、提升长视频理解能力,发展多模态Agent,实现轻量化部署,统一多模态生成和理解以及训练范式和推理流程,直接生成任意图文交错内容。
以下为报告节选内容
报告共计: 42页
中小未来圈,你需要的资料,我这里都有!
发布于:广东省