美团 LongCat 开源 General 365:树立推理评测新标尺
美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。
You must login to view this content
You must login to view this content
You must login to view this content
You must login to view this content