Boa Leitura!

Hermes desbloqueia AI Agents com autoaperfeiçoamento, impulsionados por PCs NVIDIA RTX e DGX Spark

Home /
Tecnologia /
Hermes desbloqueia AI Agents com autoaperfeiçoamento, impulsionados por PCs NVIDIA RTX e DGX Spark

A Agentic AI está transformando a forma como os usuários realizam seu trabalho. Após o sucesso do OpenClaw, a comunidade tem adotado novos frameworks agênticos de código aberto. O mais recente é o Hermes Agent, que ultrapassou 140.000 estrelas no GitHub em menos de três meses e, na semana passada, tornou-se o agente mais utilizado no mundo, de acordo com o OpenRouter.

Desenvolvido pela Nous Research, o Hermes foi projetado para oferecer confiabilidade e autoaperfeiçoamento — duas qualidades historicamente difíceis de alcançar em agentes. Independentemente de provider e modelo por concepção e otimizados para uso local ininterrupto, os PCs NVIDIA RTX, as workstations NVIDIA RTX PRO e o NVIDIA DGX Spark se tornam o hardware ideal para executá-lo em velocidade máxima, 24 horas por dia.

Os modelos Qwen 3.6, uma nova série de LLMs (large language models) de alto desempenho e pesos abertos da Alibaba, são ideais para rodar local agents como o Hermes. Os modelos Qwen 3.6 com 27B e 35B parâmetros superam seus antecessores de 120B e 400B parâmetros e rodam em GPUs NVIDIA RTX e DGX Spark para accelerated Agentic AI.

Hermes: local AI agent capacidades aceleradas

Assim como outros agentes populares, o Hermes se integra a aplicativos de mensagens, podendo acessar arquivos e aplicações locais e operando 24/7. No entanto, quatro capacidades se destacam e o diferenciam. Confira abaixo:

– Self-Evolving Skills: o Hermes escreve e aprimora suas próprias skills. Cada vez que o agente encontra uma tarefa complexa ou recebe feedback, ele salva o aprendizado como uma skill, permitindo que se adapte e evolua ao longo do tempo.

– Contained Sub-Agents: o Hermes trata subagentes como workers efêmeros e isolados, dedicados a uma subtarefa específica — com contexto e conjunto de ferramentas bem delimitados. Isso mantém a organização das tarefas em ordem, minimiza confusões para o agente e permite que o Hermes opere com janelas de contexto menores, o que é ideal para modelos locais.

– Reliability by design: a Nous Research seleciona e testa sob estresse cada skill, ferramenta e plug-in que acompanha o Hermes. O resultado: o Hermes simplesmente funciona — mesmo com modelos locais da classe de 30 bilhões de parâmetros — sem a necessidade de debugging constante que a maioria dos outros frameworks de agentes exige.

– Mesmo modelo, resultados melhores: comparações realizadas por desenvolvedores utilizando modelos idênticos em diferentes frameworks mostram consistentemente resultados superiores no Hermes. A diferença está no framework: o Hermes é uma camada de orquestração ativa, não um thin wrapper, viabilizando agentes persistentes no dispositivo em vez de execução tarefa a tarefa.

Tanto o agente Hermes quanto o LLM subjacente são projetados para rodar localmente — o que significa que a qualidade do hardware determina diretamente a qualidade da experiência do usuário. As GPUs NVIDIA RTX são desenvolvidas especificamente para esse tipo de workload.

Qwen 3.6: Inteligência de data center, localmente

Os mais recentes modelos Qwen 3.6 expandem a aclamada série Qwen 3.5 para entregar um novo salto para local AI agents. O novo modelo Qwen 3.6 35B roda em aproximadamente 20 GB de memória e supera modelos de 120 bilhões de parâmetros, que exigem mais de 70 GB de memória.

Além disso, o Qwen 3.6 27B é um novo modelo denso com mais parâmetros ativos — igualando a precisão de modelos de 400 bilhões de parâmetros como o Qwen 3.5 397B, sendo dezesseis vezes menor. Executado em GPUs RTX de última geração, o modelo conta com o poder computacional necessário para uma experiência ágil.

Esses modelos são ideais para local agents como o Hermes, e as GPUs NVIDIA e o DGX Spark representam a forma mais rápida de executá-los. Os Tensor Cores da NVIDIA aceleram a inferência de IA para oferecer maior throughput e menor latência — permitindo que o Hermes conclua uma tarefa de múltiplas etapas ou refine uma de suas próprias skills em segundos, não em minutos.

DGX Spark: O computador agentic sempre ligado

Agentes como o Hermes são projetados para operar continuamente — respondendo a solicitações, planejando tarefas de múltiplas etapas, executando de forma autônoma e se autoaperfeiçoando. O NVIDIA DGX Spark é o companheiro ideal — uma máquina compacta, eficiente e standalone, desenvolvida para workflows agênticos sustentados ao longo de todo o dia.

Com 128 GB de memória unificada e 1 petaflop de desempenho em IA, o NVIDIA DGX Spark pode executar modelos mixture-of-experts de 120 bilhões de parâmetros durante todo o dia. E o novo modelo Qwen 3.6 35B entrega inteligência equivalente em um footprint mais enxuto — rodando mais rápido e oferecendo ao usuário capacidade para executar workloads simultâneos.

Para maximizar desempenho e a facilidade de uso, consulte o playbook do Hermes para DGX Spark. Além disso, inscreva-se nas próximas sessões práticas da série “Build It Yourself” de agentic AI da NVIDIA para aprender a construir AI agents autônomos com NemoClaw e OpenShell.

O NVIDIA DGX Spark está disponível para encomenda junto aos parceiros de fabricação da NVIDIA. Visite o marketplace.

Como começar com o Hermes em hardware NVIDIA

Rodar o Hermes localmente em hardware NVIDIA é simples. Acesse o repositório do Hermes no GitHub para começar e combine-o com um modelo local e runtime de preferência. Execute o Hermes junto ao Qwen 3.6 via llama.cpp, LM Studio ou Ollama. O Hermes Agent já vem com suporte nativo ao LM Studio e ao Ollama, oferecendo o caminho mais direto para um local agent.

Seja para um entusiasta de local AI explorando a fronteira dos agentes pessoais, ou para um desenvolvedor construindo ferramentas locais para seus workflows, o Hermes em hardware NVIDIA oferece uma base única em capacidade e confiabilidade.

#ICYMI: Os últimos destaques do RTX AI Garage

GPUs NVIDIA RTX PRO entregam geração de tokens até 3x mais rápida ao rodar os modelos Qwen 3.6 com llama.cpp, oferecendo a responsividade em tempo real necessária para local AI, onde agentes podem lidar com tarefas de múltiplas etapas e refinar suas skills para manter os workflows sem interrupções.

Modelos Gemma 4 26B e 31B do Google já estão disponíveis como checkpoints NVFP4 para desempenho ainda mais rápido nas GPUs NVIDIA Blackwell. Combinados com os novos drafters Multi-Token Prediction do Google, é possível obter até 3x mais velocidade de inferência com qualidade de saída idêntica, permitindo que o raciocínio de nível frontier rode localmente em GPUs NVIDIA.

Mistral Medium versão 3.5 também foi lançado em abril, inclui atualizações de compatibilidade com llama.cpp e Ollama, possibilitando que usuários o executem em sistemas NVIDIA RTX PRO e DGX Spark.

NVIDIA introduziu recentemente o NVIDIA NemoClaw, uma stack de código aberto que otimiza experiências OpenClaw em dispositivos NVIDIA ao aumentar a segurança e oferecer suporte a modelos locais. O NemoClaw agora oferece suporte ao Windows Subsystem for Linux (WSL2), ampliando o acesso a entusiastas e desenvolvedores na plataforma da Microsoft.

Conecte-se à NVIDIA AI PC no Facebook, Instagram, TikTok e X — e mantenha-se informado assinando a newsletter RTX AI PC. Siga a NVIDIA Workstation no LinkedIn e no X.