新研讨提醒 DeepSeek o3 缺点:频频切换思路抛弃正确方向 最短答案往往便是对的

文章来源:常见问题时间:2025-04-08 08:34:24 点击:1

  依据最新研讨,推理大模型在遇到高难度问题时常常频频切换解题思路而失利。这种现象被称为“欠考虑”。经过一系列剖析过错答案,研讨人员发现这些模型经常在前期就走上了正确的道路,但却过于浅尝辄止并开端探究其他思路。成果导致后续生成的数千个tokens对解题没有奉献。该团队还开发了一个评价结构来判别被抛弃的推理途径能否得出正确答案,并提出了一个量化Underthinking程度的目标。试验成果为,在测验集MATH500、GPQA Diamond和AIME2024上进行的试验中,一切测验类o1模型都存在十分显着的思想缺乏问题。此外,他们还提出了一种名为Thought Switching Penalty(TIP)和Laconic decoding(简练解码)办法来改进推理功率和准确率。参加TIP可以更好的下降无效切换次数并进步答案质量,在AIME2024测验中QwQ-32B-Preview模型准确率从41.7%提升至45.8%,一起UT Score下降;简练解码办法在AIME2024测验中能进步6%-7%准确率比Consensus Decoding更好也更快