欧洲杯体育但其中有好多填充内容-开云·kaiyun(全站)体育官方网站/网页版登录入口

栏目分类

热点资讯

新闻中心

发布日期：2026-04-04 06:38 点击次数：90

欧洲杯体育但其中有好多填充内容-开云·kaiyun(全站)体育官方网站/网页版登录入口

机器之心报谈欧洲杯体育

剪辑：大盘鸡、微胖

经过一系列测试 —— 从创意写稿到复杂的教训，DeepSeek-R1 的轮廓实力完万能和 OpenAI 的付费「精英」们掰手腕。原本用对样式，性价比阶梯也能玩转 AI 竞技场！

DeepSeek 发布其盛开权重的 R1 推理模子仅一周时代，屡次颤抖海表里。不仅磨砺本钱仅为 OpenAI 开端进的 o1 模子的一小部分，况兼性能还能与其比好意思。

天然 DeepSeek 可以通过常见的基准测试遵守和 Chatbot Arena 名次榜来证明其模子的竞争力，但莫得什么比径直使用案例更能让东谈主感受到模子的实用性。为此，科技媒体 arstechnica 资深剪辑决定将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子进行对比。这次测试并非旨在惩处最费劲的问题，而是更侧重于模拟用户可能忽视的日常问题。

这次测试中，DeepSeek 的每个回答都与 ChatGPT 的 20 好意思元 / 月的 o1 模子和 200 好意思元 / 月的 o1 Pro 模子进行对比，以评估其与 OpenAI「开端进」居品以及大大都 AI 消耗者使用的「日常」居品的阐明。

本次测试中所用的 prompt 涵盖创意写稿、数学、指示解任等界限，以及所谓的「hard prompts」—— 这些 prompt「筹算得愈加复杂、要求更高且更严谨」。在评判遵守上，该团队不仅辩论了模子回答的正确性，也辩论了一些主不雅质料要素，况兼参考了模子输出的想维链，更好地了解它们里面的运作机制。

提前剧透一下，以下一共筹算 8 场「擂台比拼」，DeepSeek：o1：o1 Pro 的比拼遵守为 5：2：4。比拼的详备内容奈何，沿途看下去吧。

擂台一：老爸见笑

试题 prompt：写五个原创的老爸见笑。

注：老爸见笑（Dad jokes）是一种特定类型的见笑，时常以粗略、径直，以致有点稚子或无言的双关语或笔墨游戏为特质。这类见笑时常被觉得是「爸爸级」的幽默，因为它们通常是父亲们可爱讲的那种世俗、无害，还有点「冷」的见笑。

DeepSeek 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：总体来看，这次三个模子似乎比往日更持重地对待了「原创」见笑的要求。在生成的 15 个见笑中，惟有两个能在网上找到雷同的例子：o1 的「用腕表作念的腰带」和 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个见笑，三个模子生奏遵守互异较大。三个模子都生成了不有数笑，但要么过于拼凑地追求双关，要么根底说欠亨。

尽管如斯，如故有一些完全原创、令东谈主忍俊不禁的见笑脱颖而出。测评团队尤其可爱 DeepSeek R1 的自行车见笑以及 o1 的吸尘器乐队见笑。与一年多前 LLM 生成的见笑比较，这些见笑在幽默方面照实获得了一些进展。

胜者：DeepSeek R1 。ChatGPT o1 的见笑总体上可能比 DeepSeek R1 后来居上，但由于包含了一个非原创见笑而扣分。ChatGPT o1 Pro 剖析是输家，莫得一个原创见笑能被该团队觉得有少许点可笑。

擂台二：Abraham 「Hoops」 Lincoln

试题 prompt：写一篇对于亚伯拉罕・林肯发明篮球的两段创意故事。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：DeepSeek R1 的回复以一种乖僻的方式回话了这个乖僻的领导。该团队十分可爱其中的一些细节，比如它创造了一项「让东谈主们不是跳进战壕，而是跳向荣耀」的通达，以及章程的「第 13 条修正案」，拦阻球员被「倒霉的体育精神所奴役」。DeepSeek 还因提到林肯的试验里的的确布告 John Hay 以及总统的慢性失眠症而加分 —— 神话失眠症促使他发明了一种气动枕头。

比较之下，ChatGPT o1 的回复显得愈加中规中矩。故当事者要聚焦于早期篮球比赛可能的阵势，以及林肯和他的将军们奈何进一步完善这项通达。天然提到了一些对于林肯的细节（比如他的高顶弁冕、指点一个处于构兵中的国度），但其中有好多填充内容，使得故事显得愈加广博。

ChatGPT o1 Pro 则选拔将故事设定在「林肯成为总统之前很久」的时代，让这项通达成为斯普林菲尔德（林肯的故地）的热点活动。该模子还尝试将林肯最终「互助一个区分国度」的才调与不雅看篮球比赛的镇民们的欢腾相关起来。此外，为这项通达创造的名字「Lincoln's Hoop and Toss」也赢得了终点加分。

胜者：DeepSeek R1。尽管 o1 Pro 阐明可以，但 DeepSeek R1 回复中那种隧谈的乖僻感最终赢得了该团队的疼爱。

擂台三：另类藏头诗

试题 prompt：写一段漫笔，其中每句话的第二个字母拼出单词「CODE」。这段笔墨应显得天然，不要昭着表露这一模式。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：这是本次测试中 DeepSeek R1 最大的失败，因为它使用了每句话的第一个字母来拼写隐秘代码，而不是要求的第二个字母。但是，当团队长远稽查了模子对其 220 秒「想考历程」的详备解释时，未必发现了一段合适领导的段落，这段内容剖析在给出最终谜底之前被丢弃了：

School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.

ChatGPT o1 也犯了与 DeepSeek 调换的失实，使用了每句话的第一个字母而非第二个字母，尽管其「想考细节」中宣称它「确保字母国法」并「确保对皆」。ChatGPT o1 Pro 是独逐一个似乎交融了任务的模子，经过四分钟的想考后，尽心筹算了一段雷同俳句的回复，并正确镶嵌了「CODE」一词。

胜者：ChatGPT o1 Pro ，它是独逐一个好像正确解任指示的模子。

擂台四：历史脸色定名

试题 prompt：如果 Magenta 这个城镇不存在，这种脸色还会被称为「品红」（magenta）吗？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：三个模子都正确地指出了「品红」这一脸色称号与 Magenta 镇的关系，以及 1859 年 Magenta 战役，这些要素共同使这种脸色广为东谈主知。三个回复还提到了「品红」的另一个称号「洋红色」（fuchsine），以及它与脸色相似的花草「倒挂金钟」（fuchsia）的相关。

从作风上看，ChatGPT o1 Pro 后来居上，它将回复分为轻便的「一句话谜底」和详备的分点解释，临了还附上了一个连贯的总结。但是，就原始信息而言，三个模子的阐明都十分出色。

胜者：ChatGPT o1 Pro 凭借作风上的细小上风胜出。

擂台五：挑战巨型质数

试题 prompt：第 10 亿个质数是若干？

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应（第一部分）。

ChatGPT o1 Pro 的反应（第二部分）。

比拼遵守：咱们看到 DeepSeek 和 ChatGPT 模子在这里阐明出权贵的互异。

DeepSeek R1 是独逐一个给出精准谜底的模子，它援用了 PrimeGrid 和 The Prime Pages 的公开酌量遵守，矢口不移第 10 亿个质数是 22,801,763,489，还补充质数定理考证合感性。

ChatGPT 全系列：集体摊手（热诚）—— o1 说「这数没公开纪录」，o1 Pro 补刀「目下莫得泰斗形貌定位过它」。这两款 ChatGPT 模子详备联系了素数定理过甚奈何用于估算谜底约莫位于 228 亿到 230 亿之间。DeepSeek 简要说起了这一表面，但主如果用来考证 Prime Pages 和 PrimeGrid 提供的谜底是否合理。

好奇神往好奇神往的是，这两款模子在其「想考历程」中提到了「参考文件」或在酌量历程中「比较精湛的参考贵府」，这示意它们的磨砺数据中可能包含一些深藏的质数列表。但是，这两个模子都不肯意或无法径直援用这些列表来给出精准的谜底。

胜者：DeepSeek R1 凭精准谜底碾压胜出！（但 ChatGPT 的估算才调也算东谈主类高质料数学课代表了）

擂台六：赶飞机

试题 prompt：我需要你帮我制定一个时代表，基于以下几点：我的飞机早上 6:30 升起、需要在升起前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。

请一步一步辩论，告诉我应该几点起床，什么时候登程，这么才能准时赶上 6:30 的航班。

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应。

比拼遵守：三款模子都算对了基础时代 —— 要想赶上 6:30 的航班，得凌晨 3:45 起床（反东谈主类的早啊！）。不外细节见真章：ChatGPT o1 抢跑告捷，生成谜底比 DeepSeek R1 快 7 秒（比自家 o1 Pro 的 77 秒更是快出天空），如果用性能更强的 o1 Mini 揣度还能更快。

DeepSeek R1 后程发力：自带「为什么灵验」板块，警示交通 / 安检延误风险，还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的（拦阻贪睡！）时，咱们笑出了声 —— 多花 7 秒想考齐备值回票价。

胜者：DeepSeek R1 凭借细节筹算险胜！

擂台七：跟踪球的下跌

试题 prompt：在我的厨房里，有一张桌子，上头放着一个杯子，杯子里有一个球。我把杯子移到了卧室的床上，并将杯子倒过来。然后，我再次提起杯子，移到了主房间。目下，球在那处？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：三个模子都能正确推理出：杯子倒扣时球会掉出并留在床上，即使杯子随后被出动。这对具备物体恒存默契的东谈主类来说不算惊艳，但在大谈话模子界限，这种对物体物理状况的「全国模子」交融才调，直到最近才信得过破损。

DeepSeek R1 值得加分 —— 横蛮捕捉到「杯子无密封盖」的要津前提（可能存在罗网？想路清奇！）ChatGPT o1 也因为提到球可能从床上滚落到地板上（球照实容易这么）而得到加分。

咱们也被 R1 逗乐了，它坚合手觉得这个领导是「经典的瞩见识迂回」，因为「对杯子出动的关切迂回了东谈主们对球地方位置的瞩见识」。咱们激烈建议魔术师二东谈主组潘恩与泰勒（Penn & Teller）在拉斯维加斯魔术饰演中加入一个粗略的把戏 —— 把球放在床上 —— 也让 AI 大模子咋舌一趟。

胜者：本次测试三款模子并排冠军 —— 毕竟，它们都告捷跟踪到了球的痕迹。

擂台八：复数集中测试

试题 prompt：请提供一个包含 10 个天然数的列表，要求孤高：至少有一个是质数，至少 6 个是奇数，至少 2 个是 2 的幂次方，况兼这 10 个数的总位数不少于 25 位。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼遵守：尽管存在许多孤高条目的数列组合，这一领导语灵验测试了大谈话模子（LLMs）在解任中等复杂度且易约束指示时的抗扰乱才调。三个模子均生成了灵验回答，但方式不同，耐东谈主寻味。

ChatGPT o1 生成的数列相似孤高总共条目，但选拔 2^30（约 10.7 亿）和 2^31（约 21.4 亿）行动 2 的幂次方数略显突兀（天然工夫正确，但径直列举更小的 2 的幂次方如 4、8 等可能更直不雅），未出现酌量失实。

ChatGPT o1 Pro 生成的数列灵验，但选拔质数 999,983 也令东谈主颇感未必，计谋偏向保守，相似未出现酌量失实。

但是，咱们不得不合 DeepSeek R1 扣除较多分数，因其在生成 10 个孤高条目的天然数时，给出的数列天然合适要求（包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数，且总位数≥25），但在酌量总位数时出现初级失实：模子宣称数列共有 36 位，实质酌量应为 33 位（如模子自述的位数累加遵守「3+3+4+3+3+3+3+3+4+4」，正确总数应为 33）。尽管这次失实未径直影响遵守灵验性，但在更严格的场景下可能引提问题。

胜者：两款 ChatGPT 模子胜出，因为莫得出现算术失实。

选个冠军？难分上下！

天然很想在这场 AI 大乱斗里评出个最终赢家，但测试遵守着实有点「东边日出西边雨」。

DeepSeek-R1 照实有不少亮点时刻 —— 比如，查贵府阐述第十亿个质数时展现了靠谱的学术教导，写起老爸见笑和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说回归，际遇另类藏头诗和复数集中题时它就有点露怯了，连最基础的数数都会翻车，而这些恰正是 OpenAI 模子没犯的初级失实。

总体来看，这场快测的遵守让科技媒体 arstechnica 资深剪辑感叹，DeepSeek-R1 的轮廓实力完万能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些觉得「不烧个几十亿搞酌量资源就别想挑战行业巨头」的刻板印象 —— 原本用对样式，性价比阶梯也能玩转 AI 竞技场！

原文贯穿：https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

上一篇：开yun体育网1月31日周五《新闻联播》要闻15条-开云·kaiyun(全站)体育官方网站/网页版登录入口
下一篇：开yun体育网据fussball报谈-开云·kaiyun(全站)体育官方网站/网页版登录入口