cogvlm2-llama3-caption CogVLM2-Llama3-Caption 是清华大学开源的多模态视觉语言模型,专门用于图像描述生成任务。该模型基于 Llama3 架构,结合了 CogVLM2 的视觉理解能力,能够为图像生成详细、准确的文本描述。模型托管在 Hugging Face 平台,支持研究人员和开发者下载使用。适用于图像标注、视觉问答、内容审核等场景,可处理多种类型的图像并输出自 AI开发平台 # Hugging Face # Llama3
MMBench MMBench 是由 OpenCompass 提供的多模态大模型评测基准与榜单平台,面向视觉语言模型等多模态 AI 系统,提供标准化测试集、评测结果和模型性能对比信息。网站可用于了解主流多模态模型在图像理解、推理、感知等任务中的表现,适合研究人员、开发者和 AI 从业者参考模型能力与评测进展。 AI开发平台 # AI基准测试 # OpenCompass