“O momento ChatGPT para a IA física chegou – quando as máquinas começam a entender, raciocinar e agir no mundo real”, disse Jensen Huang, CEO da Nvidia, em um comunicado. “O Alpamayo traz o raciocínio para veículos autônomos, permitindo que eles analisem cenários raros, dirijam com segurança em ambientes complexos e expliquem suas decisões de direção.”
No cerne da nova família da Nvidia está o Alpamayo 1, um modelo de visão, linguagem e ação (VLA) baseado em raciocínio e cadeia de pensamento com 10 bilhões de parâmetros, que permite que um veículo autônomo pense mais como um humano, para que possa resolver casos extremos complexos — como navegar em um semáforo avariado em um cruzamento movimentado — sem experiência prévia.
“Isso é feito decompondo os problemas em etapas, analisando todas as possibilidades e, em seguida, selecionando o caminho mais seguro”, disse Ali Kani, vice-presidente da divisão automotiva da Nvidia, durante uma coletiva de imprensa na segunda-feira.
Ou, como Huang explicou em sua apresentação na segunda-feira: “O [Alpamayo] não apenas recebe informações dos sensores e ativa o volante, os freios e o acelerador, como também raciocina sobre qual ação está prestes a tomar. Ele informa qual ação será realizada, os motivos que levaram a essa ação e, claro, a trajetória.”
O código subjacente do Alpamayo 1 está disponível no Hugging Face. Os desenvolvedores podem otimizar o Alpamayo para versões menores e mais rápidas para o desenvolvimento de veículos, usá-lo para treinar sistemas de direção mais simples ou criar ferramentas com base nele, como sistemas de rotulagem automática que marcam dados de vídeo automaticamente ou avaliadores que verificam se um carro tomou uma decisão inteligente.
“Eles também podem usar o Cosmos para gerar dados sintéticos e, em seguida, treinar e testar seu aplicativo de veículos autônomos baseado em Alpamayo na combinação de dados reais e sintéticos”, disse Kani. O Cosmos é a marca da Nvidia de modelos generativos do mundo real , sistemas de IA que criam uma representação de um ambiente físico para que possam fazer previsões e tomar decisões.
Como parte do lançamento do Alpamayo, a Nvidia também está disponibilizando um conjunto de dados aberto com mais de 1.700 horas de dados de direção coletados em diversas regiões geográficas e condições, abrangendo cenários reais raros e complexos. A empresa também está lançando o AlpaSim, uma estrutura de simulação de código aberto para validação de sistemas de direção autônoma. Disponível no GitHub, o AlpaSim foi projetado para recriar condições reais de direção, desde sensores até tráfego, para que os desenvolvedores possam testar sistemas em larga escala com segurança.