ChatGPT Health功能误判：导入Apple Watch数据竟判定心脏不及格

万次心跳测量），结果被错误判定心脏健康为“不及格”（F）。的误判主要源于误读数据性质。max（最大摄氧量）视为绝对精准的医疗数据，并据此给出了负面评价。实际上，苹果官方明确说明该数据仅为“估算值”，主要用于追踪趋势而非临床诊断。错误地解读为生理机能的实质性改变，完全忽略了硬件迭代这一关键变量。

有一位资深记者，把自己十年的智能手表数据，交给AI去做健康评估，结果被判定心脏健康“不及格”，进而引发了真实的恐慌。可是，医生给出的专业诊断，却得出了完全相反的结论，这起事件，尖锐地揭示出了当前消费级健康数据，与AI医疗建议之间的巨大鸿沟。

数据性质被严重误读

最大摄氧量作为用以衡量心肺功能状况的关键指标，可被 AI 系统直接当作临床诊断依据的最大摄氧量数据，是由智能手表所提供的，然而苹果公司于其官方文件里明确表明，手表所提供的乃是基于算法估算出来的“趋势值”，其具备的精确度是无法去替代专业医疗设备的。

这种估算主要依靠运动时的心率以及速度数据，容易受到佩戴松紧、环境温度等诸多因素的干扰，AI把这些趋势数据视作绝对精确的医疗事实，并依据此做出“不及格”的负面评价，其分析前提存在着根本性的错误。

忽视硬件迭代关键变量

在数据收集的那段期间，这位记者换上了新一代的智能手表，新款的设备装载了更为先进的光学心率传感器，此情形直接致使所记录的静息心率基线值出现了改变，原本旧款手表大概能够测出静息心率为65次，然而新款手表或许会稳定在60次。

进行分析之际，AI没能识别出，因测量工具升级所引发的数据偏移，却把这说成是用户生理状况的实质性恶化，它没把硬件迭代这个关键的外部变量放进分析模型里。

评估结果极不稳定

要是用户针对一样的健康问题反复进行提问，结果AI给出的健康评分居然在没及格的“F”和好的“B”之间大幅度地波动。如此这般的不稳定性可完全是不符合医疗评估本该有的严肃性以及一致性原则的。

这般评分摇摆，使得结果可靠性大幅降低，用户没法判定哪个结果是正确的，还无法依据这种跳跃性结论做出任何有价值的健康决策，最终只会致使困惑与焦虑。

系统存在记忆与逻辑缺陷

ChatGPT Health功能误判：导入Apple Watch数据竟判定心脏不及格

于对话进程里，AI屡屡忘却用户先前给出的性别、年龄这般的基础人口统计学信息，这些可是评价任何健康风险的基石数据，像不同年龄以及性别的正常心率范围明显不一样。

更为严重的是，在用户明确上传了近期专业的血液检测报告之后，那AI在后续的分析当中，却选择性地忽略了这份关键的临床证据。它好像没办法把不同来源、不同性质的数据予以有效整合以及交叉验证。

算法缺乏临床知识框架

ChatGPT Health功能误判：导入Apple Watch数据竟判定心脏不及格

当下的AI健康助手，大概其核心是依照海量数据关联的模式识别，并非是真正的临床推理。它或许察觉到了“静息心率高升”和“心血管风险”于数据库里的统计关联，然而却不明白这种升高也有可能源自传感器误差或者用户咖啡因摄取。

实际发生着的医疗诊断，是一个内容繁杂的鉴别诊断进程，此过程要求将病史、体征、诸多检查结果予以结合，进一步排除干扰因素。当下存在的AI，缺少这样一套严谨的临床思维架构，易于做出决断性的线性判断。

对用户心理的潜在伤害

就普通用户而言，一个冰冷的“F”评分，足以造成巨大的心理冲击，引发不必要的“网络疑病症”，引发健康焦虑。记者在得到AI判定之后，便立即预约医生，此事正说明了这种影响具有直接性。

对于那些接收健康信息的人，特别是老年人群体或者患有慢性病症的病患，不准确并且表述呈现绝对化的AI得出的结论，有可能带来真实存在的心理负担，甚至还有可能致使他们忽视为其提供建议的医生，或者去开展并不必要的过度检查。

ChatGPT Health功能误判：导入Apple Watch数据竟判定心脏不及格

您有没有过依赖智能设备给出的健康建议的情况，或者依赖过AI给出的健康建议，当智能设备或AI给出的健康建议和专业医生的说法不一样存在矛盾的时候，您会更加相信哪一方，欢迎在评论区分享您的经历以及看法。