The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models

Venue

NAACL

TL;DR

Evaluation benchmark for Alignment

Tags

Synthetic DataEvaluation

URL

https://arxiv.org/abs/2406.05761

Year

2025

info@trillionlabs.co