AI资讯

DeepSeek识图模式上线,手机电脑都能用,上传图片让它看懂世界

智能摘要

的线索投递!端正式上线。端识图模式依然提示“图片理解功能内测中”,网页端没有这项提示。DeepSeek“看”世界,其能力边界远超简单的文字提取。Primitives(以视觉原语思考)”的核心框架。

识图模式正式上线,电脑和手机都能用

6月18日, 从事多模态研究的Chen对外宣称, 这款AI的识图模式在网页版以及手机App端已然同步上线, 不用再等待内测邀请而是直接打开便可体验, 不过经实测发觉, App端目前依旧提示“图片理解功能处于内测之中”, 然而 webpage端已经能够正常使用, 不存在这样的限制。

三种模式并行,识图成为独立选项

目前, AI给出了三种并列情形: 快速模式, 专家模式, 还有新添的识图模式。用户启动识图模式后, 能够径直上传图片以使AI“观”世界, 并非仅能读取图片里的文字。这项能力的界限较单纯的文字提取而言宽广许多, 可识别物体、场景、动作等繁杂信息。

识图背后有强大技术支撑

于今年4月时, 这家公司将识图模式背后的多模态模型技术细节予以公开。他们公布一种核心框架, 其名为“以视觉原语思考”, 英文缩写为VPT。此框架倘若让AI不再单单依赖文字描述, 而是径直去理解图片里的视觉元素, 进而达成更精准的分析以及判断。

实际使用场景非常广泛

普通用户能够借助识图模式迅速识别植物, 识别动物, 识别菜品, 或者使AI剖析一张照片的拍摄时间, 剖析其拍摄地点。对于设计师而言, 能够上传一张海报, 而对于文案工作者来说, 可以上传一件产品图, 如此一来, AI便能够提取设计风格, 提取配色方案, 甚至给出改进建议。这项功能在电商领域具备巨大潜力, 在教育领域具备巨大潜力, 在医疗领域同样具备巨大潜力。

网友反馈积极,期待更多功能

消息被发布之后, 有多位网友于评论区表达出兴奋之情。网友“最美的烟火”讲道: “终于等到了这一天, 往后拍照以及问问题会便利许多。”网友“咩咩洋”还提及: “期望后续能够支持视频识别, 要是那样的话将会更是如此完美。”当前AI团队宣称会持续去优化识图模式的准确率以及响应速度。

识图模式与同类产品的差异在哪

这个新模式的独特之处在于, 它不像其他AI的识图功能那样依赖文字转译, 却是直接去理解视觉信息, 相比之下它独具特色。比如说, 当你上传一张复杂的流程图以后, 它能够看懂其中的逻辑关系, 而不仅只是文字内容而已。这种“视觉思维”使得它在处理模糊图片以及多物体场景的时候, 表现得更加稳定, 并且误判率更低。

平常你最期望借助识图模式去处理啥问题呢, 欢迎于评论区把你的需求予以分享, 点赞并转发以使更多人知晓这个实用新颖功能!

相关文章