🌐Modelos multimodales
Descripción / Función
LLM especializado en imágenes y videos
Nombre modelo
salamandra-7b-vision
Comentario
Modelo salamandra-7b adaptado para el procesamiento de imágenes y videos.
Descripción / Función
Traducción de voz a texto
Nombre modelo
SalamandraTAV-7b
Comentario
Versión ajustada de salamandraTA-7b-instruct, que utiliza mhubert-base-25hz como codificador de voz. Ha sido entrenado con 12.000 horas de datos de reconocimiento de voz, 900 horas de datos de traducción de voz a texto y 113 millones de tokens de traducción de texto a texto para mantener el rendimiento del modelo original.
Última actualización
