谷歌发布FACTS Grounding基准,AI大语言模型“幻觉照妖镜”
IT之家 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。
数据集在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。
示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:
数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。
评估方案在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。
评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。
在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。
IT之家附上参考地址
上一篇:日本民企火箭运送卫星上天再度失败
下一篇:没有了
- 维修知识
- 安装知识
- 清洗保养
- 行业新闻
- 常见问题
- 地下700米的江门中微子实验液体灌注启动12-18
- 智能防盗门12-18
- BORAVIT集成灶售后服务电话12-18
- 万家乐油烟机24小时人工服务热线12-18
- 索歌风幕柜维修电话12-18
- 思密壁挂炉售后维修电话是多少12-18
- SHARP洗碗机售后维修12-18
- 海信智能电视看直播12-18
- 月底截止,事关个税!手把手教你→12-18
- 挽联打印机12-18
- 银河系中心黑洞附近首次发现双星系统12-18
- 思密锅炉售后电话24小时人工电话12-18
- 康赛特消毒柜售后电话12-18
- 碧涞空气源热泵24小时服务热线12-18
- 嘉格那洗碗机售后服务电话12-18
- 卡洛力壁挂炉售后24小时人工客服12-18
- 《科学》杂志评出2024年度十大科学突破12-18
- 经常吃瓜子会致癌吗?12-18
- 凯奇史密斯烤箱售后维修12-18
- 空调器维修技术12-18
- 完善的售后服务12-18
- 帅康集成灶售后电话12-18
- 帅丰燃气灶售后24小时人工客服12-18
- 华为乾坤智驾12月升级指南发布12-18
- 《中国乡村振兴发展报告2023》正式发行12-18
- 海尔冰箱的压缩机12-18
- 席马智能马桶售后维修12-18
- 三洋制冰机12-18
- 空气净化器评测12-18
- NORITZ消毒柜售后24小时人工客服12-18
- 申花燃气灶售后服务电话24小时12-18
- 日本民企火箭运送卫星上天再度失败12-18
- 瑞尼可兹消毒柜售后电话24小时人工电话12-18
- 比德诗燃气灶售后维修电话是多少12-18
- TAADA洗碗机全国统一服务热线12-18
- 燕穆兰指纹锁总部400售后维修12-18
- 保险柜锁12-18