视觉语言模型

奈导航为您奉上2026年最新的视觉语言模型在线工具与精品资源指南。本标签页已聚合2款视觉语言模型相关的高品质应用，涵盖等业内极具代表性的站点。全部链接均经过实测，一键点击直达，帮您快速找到最趁手的AI神器。

收录了 2 个网站

排序

发布更新浏览

cogvlm2-llama3-caption CogVLM2-Llama3-Caption 是清华大学开源的多模态视觉语言模型，专门用于图像描述生成任务。该模型基于 Llama3 架构，结合了 CogVLM2 的视觉理解能力，能够为图像生成详细、准确的文本描述。模型托管在 Hugging Face 平台，支持研究人员和开发者下载使用。适用于图像标注、视觉问答、内容审核等场景，可处理多种类型的图像并输出自

AI开发平台 # Hugging Face # Llama3

MMBench MMBench 是由 OpenCompass 提供的多模态大模型评测基准与榜单平台，面向视觉语言模型等多模态 AI 系统，提供标准化测试集、评测结果和模型性能对比信息。网站可用于了解主流多模态模型在图像理解、推理、感知等任务中的表现，适合研究人员、开发者和 AI 从业者参考模型能力与评测进展。

AI开发平台 # AI基准测试 # OpenCompass