奥特曼问答效果出问题?思维链提示还能用吗?
最近有研究团队对AI模型的使用方式进行了深度分析,发现奥特曼常用的"直接回答"提示法,可能并不是最优选择。这项研究通过大量实验数据揭示了不同提示方式对模型表现的影响,为AI工具的使用提供了新的思路。
这项研究覆盖了多个主流AI模型,涉及推理和非推理两种类型。研究人员发现,当模型被要求进行"逐步推理"时,效果并不总是理想。比如在某些情况下,使用思维链提示反而会让模型表现更不稳定,同时增加计算成本。这为AI工具的使用者提供了新的思考方向。
CoT提示作用有限,甚至存在反效果
研究团队选择了GPQA Diamond数据集作为测试基准,这个数据集包含了研究生水平的专家推理问题。在实验中,他们测试了多种模型类型,包括推理模型和非推理模型。每个模型都经历了三种不同的实验设置:强制推理、直接回答和默认模式。
为了保证实验的可靠性,每个问题在每种条件下都被测试了25次,意味着每个模型需要针对同一问题做出75次回答。研究团队统计了四个关键指标,包括100%正确率、90%正确率、51%正确率和平均评分。这些指标帮助研究人员全面评估不同提示方式的效果。
对于非推理模型来说,CoT提示确实带来了明显提升。Gemini Flash 2.0模型的平均评分和51%正确率指标都有显著改善,Claude 3.5 Sonnet的表现也相当不错。不过在100%和90%正确率方面,部分模型反而出现了下降。这说明虽然CoT能提升整体准确率,但也会增加答案的不稳定性。
如果比较强制CoT和默认模式,可以发现CoT带来的效果不如直接回答明显。这可能与部分模型已经内置了思维链有关。对于推理模型来说,CoT提示的效果就更有限了。o3-mini和o4-mini的准确率提升幅度很小,Gemini 2.5 Flash的表现甚至全面下降。
在时间消耗方面,推理模型的表现更突出。o4-mini的响应时间增加了20%,而o3-mini的涨幅超过了80%。非推理模型虽然提升幅度不如推理模型,但时间消耗的增加同样明显。这说明在追求准确率的同时,也要考虑计算成本。
研究发现,最前沿的模型已经具备了内置的推理能力。一些非推理模型也包含了CoT相关内容。这意味着"思考"过程不再需要通过额外提示来实现,这为AI工具的使用提供了新的方向。
对于直接使用模型的用户来说,默认设置已经是一种很好的使用方式。这表明在实际应用中,不需要刻意追求复杂的提示方式,简单的默认模式就能获得不错的效果。
这项研究为AI工具的使用者提供了有价值的参考。它揭示了不同提示方式对模型表现的影响,帮助用户根据实际需求选择合适的使用方式。无论是追求准确率还是效率,都能找到适合的方案。