# Models de parla

<table data-view="cards"><thead><tr><th>Descripció / Funció</th><th>Nom model</th><th data-type="content-ref">Model card</th><th>Comentaris</th><th data-hidden data-card-target data-type="content-ref"></th></tr></thead><tbody><tr><td>Reconeixement de la parla</td><td>whisper-large-v3-ca-punctuated-3370h</td><td><a href="https://huggingface.co/BSC-LT/whisper-large-v3-ca-punctuated-3370h">https://huggingface.co/BSC-LT/whisper-large-v3-ca-punctuated-3370h</a></td><td>Model per al reconeixement automàtic de la parla en català, optimitzat a partir del model <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3</a> amb 4.700 hores d’enregistraments en català. Entrenat amb dades acuradament transcrites, que inclouen puntuació i majúscules, el model genera transcripcions estructurades i llegibles, superant els models estàndard de reconeixement de la parla.</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>faster-whisper-large-v3-ca-punctuated-3370h</td><td><a href="https://huggingface.co/BSC-LT/faster-whisper-large-v3-ca-punctuated-3370h">https://huggingface.co/BSC-LT/faster-whisper-large-v3-ca-punctuated-3370h</a></td><td>Model de reconeixement de la parla, resultat de convertir el model <a href="https://huggingface.co/BSC-LT/whisper-large-v3-ca-punctuated-3370h">whisper-large-v3-ca-punctuated-3370</a> ha un model més lleuger amb <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>whisper-bsc-large-v3-cat</td><td><a href="https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat">https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat</a></td><td>Model per al reconeixement automàtic de la parla en català, optimitzat a partir del model <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3</a> amb 4.700 hores d’enregistraments en català. El model està dissenyat per transcriure àudio en català a text pla, sense signes de puntuació.</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>faster-whisper-bsc-large-v3-cat</td><td><a href="https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat">https://huggingface.co/BSC-LT/faster-whisper-bsc-large-v3-cat</a></td><td>Model de reconeixement de la parla, resultat de convertir el model <a href="https://huggingface.co/BSC-LT/whisper-bsc-large-v3-cat">whisper-bsc-large-v3-cat</a> a un model més lleuger amb <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>hubert-base-ca-2k</td><td><a href="https://huggingface.co/BSC-LT/hubert-base-ca-2k">https://huggingface.co/BSC-LT/hubert-base-ca-2k</a></td><td>Model HuBERT Base  preentrenat amb 1.778 hores de registre de veu en català. Manté la mateixa arquitectura que el model <a href="https://huggingface.co/facebook/hubert-base-ls960">hubert-base-ls960</a> original.</td><td></td></tr><tr><td>Síntesi de la parla (multiparlant i multidialectal)</td><td>Matxa-TTS Catalan Multiaccent</td><td><a href="https://huggingface.co/projecte-aina/matxa-tts-cat-multiaccent">https://huggingface.co/projecte-aina/matxa-tts-cat-multiaccent</a></td><td>Model de síntesi de la parla multiparlant i multidialectal (balear, central, nord-occidental i valencià) entrenat amb el conjunt de dades <a href="https://huggingface.co/datasets/projecte-aina/LaFrescat">LaFrescat</a>.</td><td></td></tr><tr><td>Síntesi de la parla (multiparlant)</td><td>Matxa-TTS Catalan Multispeaker</td><td><a href="https://huggingface.co/projecte-aina/matxa-tts-cat-multispeaker">https://huggingface.co/projecte-aina/matxa-tts-cat-multispeaker</a></td><td>Model de síntesi de parla multiparlant entrenat amb els conjunts de dades <a href="https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised">Festcat</a> i <a href="https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised">OpenSLR69</a>.</td><td></td></tr><tr><td>Síntesi de la parla</td><td>alvocat-vocos-22khz</td><td><a href="https://huggingface.co/projecte-aina/alvocat-vocos-22khz">https://huggingface.co/projecte-aina/alvocat-vocos-22khz</a></td><td>Codificador de veu per a la síntesi de la parla en català a partir d'espectrogrames de mel basat en l'arquitectura Vocos entrenat amb els conjunts de dades <a href="https://huggingface.co/datasets/projecte-aina/festcat_trimmed_denoised">Festcat</a>, <a href="https://huggingface.co/datasets/projecte-aina/openslr-slr69-ca-trimmed-denoised">OpenSLR69</a> i  <a href="https://huggingface.co/datasets/projecte-aina/LaFrescat">LaFrescat</a>.</td><td></td></tr><tr><td>Reconeixement de la parla (bilingüe)</td><td>stt_ca-es_conformer_transducer_large</td><td><a href="https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large">https://huggingface.co/projecte-aina/stt_ca-es_conformer_transducer_large</a></td><td>Model de reconeixement de la parla derivat de <a href="https://huggingface.co/nvidia/stt_es_conformer_transducer_large">NVIDIA/stt_es_conformer_transducer_large</a> i ajustat amb un corpus bilingüe català-castellà de 7.426 hores d'àudio</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>whisper-large-v3-tiny-caesar</td><td><a href="https://huggingface.co/projecte-aina/whisper-large-v3-tiny-caesar">https://huggingface.co/projecte-aina/whisper-large-v3-tiny-caesar</a></td><td>Model de reconeixement de la parla derivat del model <a href="https://huggingface.co/openai/whisper-large-v3"><em>whisper-large-v3</em></a>, optimitzat per al reconeixement automàtic de la parla en contextos de canvi de codi entre català i castellà.</td><td></td></tr><tr><td>Reconeixement de la parla</td><td>whisper-large-v3-ca-3catparla</td><td><a href="https://huggingface.co/projecte-aina/whisper-large-v3-ca-3catparla">https://huggingface.co/projecte-aina/whisper-large-v3-ca-3catparla</a></td><td>Model de reconeixement de la parla ajustat a partir del model <a href="https://huggingface.co/openai/whisper-large-v3">whisper-large-v3</a> amb 710 hores d'enregistraments.</td><td><a href="https://huggingface.co/projecte-aina/whisper-large-v3-ca-3catparla">https://huggingface.co/projecte-aina/whisper-large-v3-ca-3catparla</a></td></tr><tr><td>Reconeixement de la parla</td><td>faster-whisper-large-v3-ca-3catparla</td><td><a href="https://huggingface.co/projecte-aina/faster-whisper-large-v3-ca-3catparla">https://huggingface.co/projecte-aina/faster-whisper-large-v3-ca-3catparla</a></td><td>Model de reconeixement de la parla, resultat de convertir el model <a href="https://huggingface.co/projecte-aina/whisper-large-v3-ca-3catparla">whisper-large-v3-ca-3catparla</a> a un model més lleuger amb <a href="https://github.com/SYSTRAN/faster-whisper/tree/master">faster-whisper</a>.</td><td></td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://langtech-bsc.gitbook.io/aina-kit/models/models-de-parla.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
