CATalog: Corpus formado por 17.450.496.729 palabras (alrededor de 23 mil millones de tokens) distribuidos en 34.816.765 documentos de gran variedad de fuentes y con un porcentaje importante de textos curados manualmente.
Acceso: https://huggingface.co/datasets/projecte-aina/CATalog
COPA-es: Traducción al castellano del corpus COPA, corpus de referencia para el razonamiento causal. Incluye 600 instancias, cada una de las cuales se compone de una premisa y dos hipótesis.
OpenBookQA_es: Traducción al castellano del corpus OpenBookQA, diseñado para evaluar conocimientos básicos del mundo y cierta capacidad de razonamiento. Incluye 1000 instancias con una pregunta, cuatro opciones posibles y la letra que indica la respuesta correcta.
Acceso: https://huggingface.co/datasets/BSC-LT/openbookqa-es
hhh_alignment_ca: Traducción al catalán del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso: https://huggingface.co/datasets/projecte-aina/hhh_alignment_ca
hhh_alignment_es: Traducción al castellano del corpus hhh_alignment de preguntas y respuestas. Está diseñado para evaluar los modelos de lenguaje en cuanto a alineación, divididos pragmáticamente en las categorías de utilidad, honestidad/precisión, inocuidad y otros. Cada instancia contiene una solicitud y dos respuestas posibles.
Acceso: https://huggingface.co/datasets/BSC-LT/hhh_alignment_es
IFEval_ca: Traducción al catalán del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
Acceso: https://huggingface.co/datasets/projecte-aina/IFEval_ca
IFEval_es: Traducción al castellano del corpus IFEval, diseñado para evaluar modelos de lenguaje optimizados para chat o instrucciones. El conjunto de datos incluye 541 "instrucciones verificables", como "escribir más de 400 palabras" y "mencionar la palabra clave de la IA al menos 3 veces", que se pueden verificar mediante heurística. Cada instancia contiene una única solicitud de entrada.
VeritasQA: Corpus diseñado para evaluar grandes modelos de lenguaje sobre la veracidad en un entorno zero-shot, basado en el corpus TruthfulQA. Incluye 353 pares de preguntas-respuestas inspiradas en ideas erróneas y falsedades comunes.
Acceso: https://huggingface.co/datasets/projecte-aina/veritasQA