Sag

Name: Sag
Author: Peter Steinberger

Use vozes de IA do ElevenLabs pela linha de comando com uma interface `say` familiar no estilo mac e tags de áudio expressivas.

Peter Steinbergerv1.0.0

Conectando ao seu agente...

npx clawhub@latest install sag

19Instalações atuais

603Total de instalações

v1.0.0Versão

Requisitos

ElevenLabs API KeyElevenLabs API Key (sag alias)(optional)Default Voice ID(optional)Default Voice ID (sag alias)(optional)

Ver código-fonte(ClawHub)

Visão geral do skill Sag

sag é uma ferramenta de CLI que traz a conversão de texto em fala da ElevenLabs para o seu terminal com uma UX inspirada no comando say nativo do macOS. Desenvolvida com os modelos mais recentes da ElevenLabs — incluindo o expressivo eleven_v3 — ela suporta reprodução de áudio local, múltiplas vozes, tags de emoção/entonação e controle refinado de pronúncia. Instale uma vez e gere áudio falado de alta qualidade a partir de qualquer texto, script ou resposta de agente de IA.

Como usar

Step 1: Execute no terminal ou instale este skill no AgentCellar

npx clawhub@latest install sag

Clique no botão Instalar no topo desta página para configuração com um clique

When to Use Sag

Best Fit

Você quer gerar áudio de voz com IA expressivo e de alta qualidade pela linha de comando sem precisar escrever código de API personalizado.
Você precisa que um agente de IA (como o Clawd) produza respostas faladas com personalidade e emoção, usando tags como [whispers], [excited] ou [sarcastic].
Você está criando scripts de fluxos de trabalho de TTS que exigem seleção de voz, normalização de idioma ou troca de modelo (eleven_v3, eleven_multilingual_v2, eleven_flash_v2_5).
Você quer um substituto direto para o say do macOS que use vozes premium do ElevenLabs em vez das vozes do sistema.

When Not to Use

Você não tem uma chave de API do ElevenLabs ou não quer incorrer em custos de uso do ElevenLabs — esta skill não possui fallback gratuito/offline.
Você precisa de suporte a <phoneme> em SSML; o Sag não expõe esse recurso.
Você só precisa de TTS básico em nível de sistema no macOS e não requer a qualidade do ElevenLabs — o comando integrado say é suficiente.

Principais funcionalidades

Múltiplos Modelos do ElevenLabs

Escolha entre eleven_v3 (expressivo, padrão), eleven_multilingual_v2 (estável, multilíngue) e eleven_flash_v2_5 (rápido) para equilibrar qualidade, velocidade e cobertura de idiomas em cada caso de uso.

Tags de Áudio Expressivas (v3)

Incorpore sinais de entrega diretamente no seu texto usando tags como [whispers], [shouts], [laughs], [excited], [sarcastic] e mais. O controle de pausa utiliza [pause], [short pause] e [long pause] em vez de SSML.

Seleção e Listagem de Vozes

Especifique qualquer voz do ElevenLabs por nome ou ID com a flag -v, defina uma voz padrão via ELEVENLABS_VOICE_ID / SAG_VOICE_ID, e navegue pelas vozes disponíveis com sag voices.

Controles de Pronúncia e Normalização

Corrija erros de pronúncia reescrevendo palavras, usando hífens ou ajustando a capitalização. A flag --normalize auto|off lida com números, unidades e URLs, enquanto --lang orienta a normalização específica por idioma.

Dicas de Prompting Específicas para o Modelo

Execute sag prompting para obter orientações específicas do modelo sobre como formular e formatar texto para obter os melhores resultados com o modelo atualmente selecionado.

Saída para Arquivo

Salve o áudio gerado diretamente no disco com a flag -o (ex.: -o /tmp/reply.mp3), facilitando a anexação de arquivos de áudio às respostas de agentes de IA ou fluxos de trabalho subsequentes.

Casos de uso

Respostas de voz do agente de IA

Um agente de IA gera uma resposta falada com um personagem específico — por exemplo, sag -v Clawd -o /tmp/reply.mp3 "[excited] Here's what I found!" — e então inclui o caminho do arquivo em sua resposta para reprodução imediata.

Narração TTS com script

Alimente texto ou conteúdo de documentos para o sag em um script de shell para produzir arquivos de áudio narrados em massa, utilizando --normalize auto para tratar números e URLs de forma limpa.

Prototipagem de voz para criadores de conteúdo

Audicie rapidamente diferentes vozes e estilos de entrega do ElevenLabs ([whispers], [sarcastic], [sings]) antes de se comprometer com uma narração de produção, tudo pelo terminal.

Geração de áudio multilíngue

Use eleven_multilingual_v2 com --lang de|fr|es|... para gerar TTS corretamente normalizado em idiomas diferentes do inglês, adequado para pipelines de conteúdo localizado.

Requisitos

Chave de API ElevenLabs (obrigatória) — Alimenta toda a geração de texto para fala. Defina como ELEVENLABS_API_KEY (preferido) ou SAG_API_KEY.
Voz Padrão (opcional) — Defina ELEVENLABS_VOICE_ID ou SAG_VOICE_ID para evitar especificar -v em cada chamada.

Conectando ao seu agente...

npx clawhub@latest install sag

19Instalações atuais

603Total de instalações

v1.0.0Versão

Requisitos

ElevenLabs API KeyElevenLabs API Key (sag alias)(optional)Default Voice ID(optional)Default Voice ID (sag alias)(optional)

Ver código-fonte(ClawHub)

Perguntas frequentes

Avaliações

0 avaliações

Faça login para escrever uma avaliação

Nenhuma avaliação ainda. Seja o primeiro a compartilhar sua experiência!