cogvlm2-llama3-caption CogVLM2-Llama3-Caption 是清华大学开源的多模态视觉语言模型,专门用于图像描述生成任务。该模型基于 Llama3 架构,结合了 CogVLM2 的视觉理解能力,能够为图像生成详细、准确的文本描述。模型托管在 Hugging Face 平台,支持研究人员和开发者下载使用。适用于图像标注、视觉问答、内容审核等场景,可处理多种类型的图像并输出自 AI开发平台 # Hugging Face # Llama3