题目 ID: q-5259

如何设计一个评估方案来衡量 LLM 的特定能力,比如"事实性/幻觉水平"、"推理能力"或"安全性"?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

通用题库