在大模子(LLM)盛行确当下 ,大估评估 AI 零星成为了紧张的模评一环 ,在评估历程中都市碰着哪些难题,基准Anthropic 的靠谱一篇文章为咱们揭开了谜底 。
现阶段,大评大少数环抱家养智能 (AI)对于社会影响的大估品评辩说可演绎为 AI 零星的某些属性,好比着实性、模评公平性、基准滥用的靠谱可能性等 。但如今面临的大评下场是,良多钻研职员并无残缺意见到建树安妥坚贞的大估模子评估是何等难题 。现今良多现有的模评评估套件在方方面面的展现都颇有限。
AI 独创公司 Anthropic 克日在其民间网站上贴出了一篇文章《评估 AI 零星所面临的基准挑战》。文中写道