{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreicm5u7ykskuu74oc7ottsxisyuwtnewujeynbxlk5qnzidkmb3nua",
"uri": "at://did:plc:3pjw65epwlo3rzajhx6xg4br/app.bsky.feed.post/3mguhlmdpf7w2"
},
"coverImage": {
"$type": "blob",
"ref": {
"$link": "bafkreidzgkq443rvncvz4alladjqx6l3caooid7p2bsh6wrmgsnng7svgy"
},
"mimeType": "image/png",
"size": 253108
},
"path": "/2026/03/12/granite-4-0-1b-speech-ia-de-voz-compacta-para-o-edge/",
"publishedAt": "2026-03-12T05:32:21.000Z",
"site": "https://assuntonerd.com.br",
"textContent": "\n\n## Visão geral\n\nGranite 4.0 1B Speech é o novo modelo de fala aberto da família Granite, da IBM, voltado para reconhecimento automatico de fala (ASR) e tradução automática de fala (AST) em múltiplos idiomas. Com cerca de 1 bilhão de parâmetros, ele foi desenhado para rodar em dispositivos com recursos limitados, mantendo desempenho competitivo frente a modelos bem maiores, inclusive em benchmarks públicos como o OpenASR.\nO modelo é distribuído com pesos abertos, sob licença Apache 2.0, e já está integrado ao ecossistema de ferramentas como Hugging Face Transformers e vLLM, facilitando a adoção por desenvolvedores e empresas.\n\n## Principais capacidades\n\nGranite 4.0 1B Speech é um modelo de linguagem de fala (“speech-language model”) capaz de:\n\n * Reconhecimento automático de fala (ASR) em seis idiomas: inglês, francês, alemão, espanhol, **português** e japonês.\n * Tradução automática de fala (AST) bidirecional entre esses idiomas e o inglês, além de pares adicionais como inglês–italiano e inglês–mandarim em cenário de fala-para-texto-para-texto.\n * Processamento de entradas apenas de texto, reaproveitando o backbone Granite 4.0 1B como um modelo de linguagem tradicional quando não há áudio.\n\n\n\nAlém disso, a versão 4.0 introduz dois recursos bastante pedidos pela comunidade: suporte completo a ASR em japonês e “keyword list biasing”, que permite enviesar a decodificação para reconhecer melhor nomes próprios, siglas e termos específicos de domínio.\n\n## O que muda em relação ao Granite Speech 3.3\n\nGranite 4.0 1B Speech sucede a linha Granite Speech 3.3, que incluía variantes de 2B e 8B parâmetros focadas principalmente em ASR em inglês e AST para alguns idiomas europeus e asiáticos. Enquanto o Granite Speech 3.3 8B já superava modelos abertos e fechados em tarefas de transcrição em inglês, ele exigia mais memória e poder computacional, o que limitava usos em cenários de edge ou dispositivos embarcados.\n\nNa nova geração, a IBM reduz o número de parâmetros pela metade em relação ao granite-speech-3.3-2b, mantendo ou melhorando a acurácia em inglês e ampliando o suporte multilíngue. Isso é viabilizado por melhorias na arquitetura, na estratégia de alinhamento entre áudio e texto e no uso de técnicas de inferência como speculative decoding, que aceleram significativamente o tempo de resposta.\n\n## Arquitetura em alto nível\n\nGranite 4.0 1B Speech segue a linha dos modelos Granite Speech anteriores: um encoder acústico especializado é acoplado a um modelo de linguagem de propósito geral (Granite 4.0 1B Base), alinhado para operar sobre embeddings de fala.\n\nNo encoder de áudio, a IBM utiliza 16 blocos Conformer treinados com CTC (Connectionist Temporal Classification) sobre um vocabulário de caracteres ASCII para idiomas europeus e um conjunto fonético de Katakana para japonês. Esse encoder incorpora block-attention com janelas de 4 segundos e self-conditioned CTC, reduzindo o custo computacional e melhorando a robustez em áudios longos.\n\nEntre o encoder de fala e o LLM, há um adaptador de modalidade baseado em Windowed Query Transformer (Q-Former), responsável por reduzir a sequência temporal e projetar os embeddings acústicos para o espaço de embeddings de texto do Granite 4.0. O modelo de linguagem em si herda o backbone Granite 4.0 1B, que usa uma arquitetura híbrida Mamba‑2/Transformer, com foco em eficiência de memória e latência, além de oferecer contexto longo (até 128k tokens) em algumas variantes.\n\n\n## Desempenho em benchmarks\n\nApesar do tamanho relativamente pequeno, Granite 4.0 1B Speech alcançou a primeira posição no OpenASR Leaderboard, com word error rate (WER) médio em torno de 5,5%, superando modelos como Whisper Large V3, Phi-4 Multimodal e Canary 1B Flash. Esses resultados mostram que é possível combinar compacidade com alta qualidade de transcrição, algo especialmente relevante para aplicações em produção com custos de infra estrita.\n\nNos benchmarks de ASR em inglês, o modelo atinge WER competitivo ou superior em relação a sistemas com muito mais parâmetros, mantendo boa performance também em cenários multilíngues. Em AST, o modelo acompanha ou se aproxima de modelos maiores nos pares de idioma suportados, com destaque para traduções inglês–europeu e inglês–japonês/chinês.\n\n## Licença, governança e segurança\n\nAssim como os demais modelos Granite 4.0, o 1B Speech é liberado sob licença Apache 2.0, o que permite uso comercial, modificações e redistribuição, desde que mantidos os avisos de copyright e licença. A IBM destaca que os modelos compactos seguem o mesmo padrão de governança, rastreabilidade de dados e certificações (incluindo conformidade com ISO 42001) adotado na família Granite maior.\n\nPara deployments em produção, a recomendação é integrar o modelo com o Granite Guardian, camada de segurança e detecção de riscos que ajuda a mitigar abusos, vazamento de dados sensíveis e outros comportamentos indesejados. Isso é especialmente relevante em cenários regulados, como saúde, finanças e setor público, em que logs de áudio e transcrições podem conter informações altamente sensíveis.\n\n## Casos de uso típicos\n\nGranite 4.0 1B Speech é particularmente atrativo para cenários de edge e aplicações empresariais que precisam de processamento de fala local.\nAlguns exemplos de uso incluem:\n\n * Contact centers e voicebots corporativos, com reconhecimento de fala em tempo real em múltiplos idiomas e opção de tradução on-the-fly para agentes humanos.\n * Sistemas embarcados em veículos, equipamentos industriais ou dispositivos IoT, onde a comunicação por voz precisa funcionar mesmo com conectividade limitada.\n * Ferramentas de produtividade, como assistentes pessoais, sistemas de tomada de notas em reuniões e legendagem automática, com possibilidade de rodar localmente em notebooks potentes ou estações de trabalho.\n * Aplicações multilíngues em ambientes regulados, que exigem maior controle sobre dados de áudio e transcrições, evitando o envio de informações para serviços externos proprietários.\n\n\n\nNo contexto de desenvolvimento de agentes e pipelines RAG, o modelo também pode atuar como front-end de voz para um LLM de texto maior, convertendo áudio em texto que depois será enriquecido com contexto externo e respondido de volta ao usuário, possivelmente com síntese de voz em outro componente.\n\n## Como experimentar o modelo\n\nO Granite 4.0 1B Speech está disponível no Hugging Face sob o identificador `ibm-granite/granite-4.0-1b-speech`, com documentação detalhada, exemplos de uso e instruções de inferência via Transformers e vLLM.\nUm exemplo simplificado de uso com vLLM demonstra como carregar o modelo, aplicar o template de chat e enviar um áudio junto com a instrução para obter a transcrição:\n\n\n from transformers import AutoTokenizer\n\n\n\n\n from vllm import LLM, SamplingParams\n\n\n\n\n from vllm.assets.audio import AudioAsset\n\n\n\n\n\n\n\n model_id = \"ibm-granite/granite-4.0-1b-speech\"\n\n\n\n\n tokenizer = AutoTokenizer.from_pretrained(model_id)\n\n\n\n\n\n\n\n def get_prompt(question: str, has_audio: bool):\n\n\n\n\n if has_audio:\n\n\n\n\n question = f\"<|audio|>{question}\"\n\n\n\n\n chat = [{\"role\": \"user\", \"content\": question}]\n\n\n\n\n return tokenizer.apply_chat_template(chat, tokenize=False)\n\n\n\n\n\n\n\n model = LLM(\n\n\n\n\n model=model_id,\n\n\n\n\n max_model_len=2048,\n\n\n\n\n limit_mm_per_prompt={\"audio\": 1},\n\n\n\n\n )\n\n\n\n\n\n\n\n question = \"can you transcribe the speech into a written format?\"\n\n\n\n\n prompt_with_audio = get_prompt(question=question, has_audio=True)\n\n\n\n\n\n\n\n audio = AudioAsset(\"mary_had_lamb\").audio_and_sample_rate\n\n\n\n\n inputs = {\"prompt\": prompt_with_audio, \"multi_modal_data\": {\"audio\": audio}}\n\n\n\n\n\n\n\n outputs = model.generate(\n\n\n\n\n inputs,\n\n\n\n\n sampling_params=SamplingParams(temperature=0.2, max_tokens=64),\n\n\n\n\n )\n\n\n\n\n\n\n\n print(outputs[0].outputs[0].text)\n\n\n\n\nAlém da integração com vLLM, o modelo pode ser consumido via API ou contêineres preparados por parceiros e pela própria IBM, seguindo a mesma lógica de outros modelos Granite 4.0.\n\n## Por que o Granite 4.0 1B Speech é relevante\n\nA combinação de abertura de pesos, licença permissiva, eficiência computacional e desempenho de ponta em benchmarks públicos torna o Granite 4.0 1B Speech um candidato natural para empresas que querem construir soluções de voz sem ficarem presas a serviços proprietários. O fato de o modelo liderar rankings como o OpenASR, mesmo com apenas 1 bilhão de parâmetros, mostra que há espaço para arquiteturas mais enxutas competirem com gigantes em tarefas de ASR e AST.\n\nPara times de engenharia, isso se traduz em custos menores de GPU/CPU, possibilidade de deployment on-premises ou no edge e mais controle sobre toda a cadeia de dados de áudio.\nPara a comunidade, é mais um passo na direção de um ecossistema de IA de voz verdadeiramente aberto, no qual modelos de fala de alta qualidade podem ser auditados, adaptados e combinados com outras peças (TTS, LLMs de texto, agentes) sem barreiras artificiais.\n\nAté o próximo post.",
"title": "Granite 4.0 1B Speech: IA de voz compacta para o edge"
}