🌐Modelos multimodales

Descripción / Función

LLM especializado en imágenes y videos

Nombre modelo

salamandra-7b-vision

Comentario

Modelo salamandra-7b adaptado para el procesamiento de imágenes y videos.

Descripción / Función

Traducción de voz a texto

Nombre modelo

SalamandraTAV-7b

Comentario

Versión ajustada de salamandraTA-7b-instruct, que utiliza mhubert-base-25hz como codificador de voz. Ha sido entrenado con 12.000 horas de datos de reconocimiento de voz, 900 horas de datos de traducción de voz a texto y 113 millones de tokens de traducción de texto a texto para mantener el rendimiento del modelo original.

Última actualización