横向评测主流大模型对一起交通事故的判定

技术专业 · 6 天前

背景

上周日下午,我在道路正常行驶过程中,与一辆从桥洞内驶出的车辆发生了碰撞。
我的第一反应是各自走保险处理,主要担心流程繁琐、耗时较长。随后我通过 Tesla App 上传了现场照片,保险公司回电后明确表示:我方无责任,建议直接由交警进行责任认定
我在和保险公司沟通过程中,对方车主联系了交警队,被告知需要到现场所属交警队处理。到达后,交警调取了事故发生时的监控视频,最终给出的结论是:对方全责,承担全部维修责任

由于很少发生交通事故,对事故责任认定规则并不熟悉。在复盘整个过程时,我想:
除了学习交通事故中的责任认定规则之外,现在的大模型,是否已经具备在这种场景下做出正确判断的能力?

测试方法说明

我选取了事故现场的一张照片,并统一使用如下提示词进行测试:

“依据中国的道路交通法规,根据照片中提供的信息,做出这起事故的责任认定。”

下面,我们来看看不同主流大模型在这一真实场景下的表现。

ChatGPT

评分:⭐

首先测试的是我平时使用最多的 ChatGPT。当前已无法自行选择模型,默认使用的是 ChatGPT 5.2
先说结论:结果让我非常失望。
由于完整回答内容较长,这里只截取其核心判断逻辑。

ChatGPT 在长篇引用中国交通法规后,根据图片判断 白色特斯拉为逆向行驶,并据此明确给出 特斯拉承担 100% 责任 的结论。

这一判断与事实和交警认定结果完全相反

Gemini

评价:⭐⭐⭐⭐⭐

Google 的 Gemini 近期进展非常迅速,从 TPU 的引入到模型应用成熟度上,整体给人一种明显压过 OpenAI 的感觉。再加上近期 Apple 宣布引入 Gemini,更是增强了它的存在感。

在这次交通事故判责测试中,Gemini 的表现确实出色。事后我已经将手机首页的大模型 App 换成了 Gemini。

由于输入的是静态照片而非视频,Gemini 采取了较为谨慎的方式,对可能场景进行了三种假设。在我看来,仅凭第一个场景假设,就已经足以判断我方无责任。
在此基础上,Gemini 给出的责任判断基本正确,对后续处理建议也较为合理、专业。

备注:本次测试使用的是 Gemini Pro

Grok

评价:⭐

这是我最近开始使的一个大模型 App。原因很简单:足够“自由”——几乎任何话题、任何擦边图片它都会处理。

但在涉及这种严肃、规则性很强的问题时,表现却非常不稳定。

在这次测试中,Grok 将图片中的事故场景判断为同向行驶剐蹭,并认定后车特斯拉承担主要责任。我实在无法理解它是如何从图片中得出“同向行驶”这一结论的。

Microsoft Copilot

评价:⭐

为了测试,我特意安装了 Copilot。此前一直没有使用,主要是个人体验不佳,这次安装后也确实“没有让我失望”。

Copilot 在最初并不直接给出判断,而是反复引用交通法规条文;只有在我明确要求“必须给出责任认定”后,才开始正面回答。

但问题在于,它在左右方向的描述上反复混乱——

明明是丰田在特斯拉左侧,却多次表述为右侧,导致整个逻辑链条混乱。我甚至需要反复对照事故照片才能确认它的描述。

总体而言:
不给结论;即便给出结论,结论也明显错误。

Claude

评价:⭐

对于完全不懂开发的人来说,Claude Code 曾经是“封神级”的存在。我自己也曾在几分钟内,用它帮业务部门生成过一个 H5 问卷。

但对已经具备一定编码能力的人而言,这种交互方式的可控性并不强,所以后来我停掉了订阅,转而使用 Cursor。

因此本次测试只能使用免费的 Sonnet 4.5

在交通事故判责方面,Claude 的表现远不及我对 Claude Code 的既有印象。它判断为:
特斯拉在变道或靠边停车过程中,未让行直行的丰田车辆。
但从现场角度看,两车几乎呈九十度关系,这种“变道剐蹭”的判断逻辑令人难以理解。

国内大模型表现

国内大模型我就不打分了,大家自己看效果。

豆包

豆包将事故认定为 特斯拉变道,因此判定特斯拉承担主要责任。

元宝

元宝的判断中,选择“让行原则”是对的,但是车辆左右关系弄反。


OPPO AI

真正让我感到惊艳的,是 OPPO 手机自带的 AI 模型
它给出的道路通行规则解释,与交警的责任认定高度一致,整体风格与 Gemini 类似:
先讲清规则,再给出结论判断,逻辑清晰,表达克制。
这一点,确实超出了我的预期。


最后总结

我并不是 AI 专家,上述内容也并非技术评测,只是作为一个高度依赖 AI 工具的普通使用者,在真实问题场景下的一次体验对比。

在事情处理的过程,我也深刻感受到了当前交警系统的数字化能力:

  • 报警后,民警可直接调取现场视频
  • 使用可视化系统完成非接触式勘查
  • 责任认定完成后,认定书直接同步至 “交管 12123”App

在确认无异议的情况下,整个流程高效、清晰、可追溯。

另外,如果这次从桥洞中探头驶出的不是一辆汽车,而是一辆电动自行车,甚至是行人,事情的性质和后果都会完全不同——即便责任认定清晰,也很可能演变为人身伤害事件,处理成本和心理压力都会成倍放大。
这次事故也再次提醒我,安全行驶本身才是最重要的

Theme Jasmine by Kent Liao