对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
11月18日消息,对标代推第日前,布新国内人工智能公司月之暗面推出的理模Kimi国产大模型正式发布k0-math。
k0-math是型中Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,考高考考通过模拟人脑的研全思考和反思过程,大幅提升解决数学难题的对标代推第能力。
据了解,布新在多项数学基准能力测试中,理模k0-math的型中表现能对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。
根据官方公布的考高考考结果,在中考、研全高考、对标代推第考研以及包含入门竞赛题的布新MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型,理模拿下第一。
在业界最常使用的数学能力基准测试MATH 中,k0-math模型得分93.8,超过 o1-mini的90分和o1-preview的85.5分。
官方表示,k0-math这一成绩仅次于暂未开放使用的o1完全版94.8分。
据介绍,常规模型的设定目标是尽快提供问题的答案,但k0-math不同,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。
另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
月之暗面表示,这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。
(责任编辑:综合)
-
09月06日讯 亚洲区世预赛18强赛第一轮,国足0-7惨败给日本。本轮比赛,18强赛抽签时的后三档球队中多队爆冷:巴勒斯坦客场0-0逼平韩国,印尼客场1-1战平沙特,巴林更是1-0绝杀澳大利亚!后三档 ...[详细]
-
11月28日,在欧冠不敌利物浦后,皇马在积分榜上进一步下滑,对此,解说员黄健翔谈到了自己的看法。黄健翔表示:利物浦击败皇马完全在意料之中,说实话我还想过由于双方多年的恩怨,利物浦会不会趁你病要你命,踢 ...[详细]
-
11月14日,国足即将迎来VS巴林的关键战,如果能够战胜对手,对国足争取附加赛名额,将起到极大利好作用。带队巴林的主教练塔拉吉奇,对中国足球、亚洲足球格外了解。59岁的他是伊万科维奇的“老相识”,同为 ...[详细]
-
2024 年 9 月 24 日,在法国巴黎,联合国教科文组织总部开启了全球对于中国数学家刘徽的纪念活动。作为本次活动的一部分,国内也进行了相关纪念,并称刘徽为中国古代数学理论的奠基者。“九 ...[详细]
-
9月7日讯U21国足对阵马来西亚U20比赛第24分钟,何小珂单刀打门被对方门将伸腿封出。 ...[详细]
-
11月29日讯,今日,360董事长周鸿祎@红衣大叔)在一则视频中分享了关于未来赚钱的三个关键拐点,为创业者和求职者提供了宝贵的洞见。他在视频中强调:想创业或者找工作的人,都可以往这些方向研究一下,看有 ...[详细]
-
11月12日讯 据《泰晤士报》报道,罗伯逊在接受采访时谈及了自己目前的情况。关于自己在球队中的位置我现在确实需要去证明自己。在过去的几场比赛中,我一直都坐在替补席上,这是我很长一段时间以来第一次在俱乐 ...[详细]
-
微星Claw 8、Claw 7 AI+掌机终于发布!首发酷睿Ultra 200V、32GB大内存
11月29日消息,微星在海外正式发布了第二代游戏掌机,包括两款Claw 8 AI+、Claw 7 AI+,首发配备代号Lunar Lake的酷睿Ultra 200V系列处理器。上代微星Claw 7,曾 ...[详细] -
10月各国销冠车型盘点:中国最爱比亚迪小海鸥 美国钟情福特大皮卡
12月4日消息,易车榜今日发布了10月汽车销量Top20国家的销冠车型盘点。榜单显示,中国作为全球汽车销量第一大国,销冠车型为比亚迪海鸥,10月销量为5.13万辆;而中国9月份的销冠车型还是特斯拉Mo ...[详细] -
11月29日消息,电动车蓬勃发展,中国已经成为了全球最大的新能源汽车市场,同时也成为了世界最大的新能源出口国,生产制造等相关经验领先全球。据财联社报道,法国汽车制造商雷诺正在转向电动汽车生产,而为了获 ...[详细]