A iminente onipresença da IA: navegando pela eficiência da nuvem e pelo impacto ambiental com CAST AI

Laurent Gil, IA do elenco

Hoje, estamos testemunhando o preço do progresso. À medida que a IA generativa evolui rapidamente em meio a um cenário crescente de adoção, as maravilhas da inteligência artificial enfrentam custos e desafios surpreendentes. O fascínio da comunidade de capital de risco e dos gigantes da tecnologia, que investiram milhares de milhões de dólares em startups especializadas em tecnologias generativas de IA, não considerou a realidade subjacente destes elevados custos que ameaçam o boom actual.

Em junho de 2023, o ChatGPT recebeu 60 milhões de visitas diárias, com 10 milhões de consultas por dia. Em abril de 2023, estimou-se que executar o ChatGPT custaria US$ 70.000 por dia, a um custo médio de US$ 0,36 por pergunta. Em junho, no entanto, “Tom Goldstein, professor de AI ML na Universidade de Maryland, estimou o custo diário de execução do ChatGPT em aproximadamente US$ 100.000 e o custo mensal em US$ 3 milhões”.

Este artigo recente traçou o perfil de uma startup, Latitude, que se viu às voltas com contas exorbitantes à medida que seus jogos baseados em IA, como AI Dungeon, ganhavam popularidade. O RPG baseado em texto do Latitude utilizou a tecnologia de linguagem GPT da OpenAI, resultando em custos crescentes proporcionais ao uso do jogo. O uso inesperado do AI Dungeon pelos profissionais de marketing de conteúdo para gerar cópias promocionais exacerbou ainda mais a pressão financeira da startup.

Uma das principais razões para o alto custo da IA generativa é o poder computacional substancial necessário para “treinamento e inferência”. O treinamento de grandes modelos de linguagem (LLM) exige bilhões de cálculos e hardware especializado, como processadores gráficos (GPUs). A Nvidia, fabricante líder de GPU, oferece chips robustos para data centers que podem custar até US$ 10.000 cada. As estimativas sugerem que modelos de treinamento como o GPT-3 da OpenAI podem exceder US$ 4 milhões, enquanto modelos mais avançados podem atingir milhões de dólares em custos de treinamento.

“Por exemplo, o modelo LLaMA mais recente da Meta exigiu impressionantes 2.048 GPUs Nvidia A100 e mais de 1 milhão de horas de GPU, incorrendo em custos superiores a US$ 2,4 milhões.” Isto pode criar um impacto adicional sobre os intervenientes da indústria como a Microsoft, que actualmente aproveitam a tecnologia, necessitando de custos de infra-estruturas que atingem milhares de milhões de dólares para satisfazer a procura dos utilizadores.

Encontrei-me com Laurent Gil, ex-líder do Internet Intelligence Group da Oracle e atual cofundador da CAST AI, que é uma plataforma de otimização de nuvem alimentada por ML que analisa milhões de pontos de dados, buscando o equilíbrio ideal de alto desempenho com o menor custo. O CAST AI determina quanto você pode economizar e, em seguida, realoca seus recursos de nuvem em tempo real para atingir a meta sem impacto no desempenho.

Discutimos o verdadeiro custo de adotar modelos de IA mais avançados.

Gil revelou que serviços em nuvem como AWS, Azure e Google têm uma parcela considerável de suas contas alocadas em poder computacional. Isso inclui CPUs e memória, representando cerca de 90% dos custos, enquanto a outra metade cobre diversos serviços como armazenamento e bancos de dados. Ele reconhece que sua resposta teria sido diferente há 3 meses.

“Para uma empresa de IA, eles estão investindo mais na computação e menos no resto, porque a maior parte dos custos de execução deste modelo está em GPUs de computação... Temos muitos clientes na nuvem, estamos atualmente gerenciando e otimizando milhões de CPUs todos os dias.”

Observações recentes revelam um aumento no número de empresas de IA que investem quantias substanciais na formação de modelos especializados de IA. Esses processos de treinamento envolvem imenso uso de computação, às vezes variando de uso mínimo de CPU a dezenas de milhares de CPUs e GPUs em execução por horas para treinar os modelos de maneira eficaz. Esta distinção é vital, pois enfatiza que estes elevados custos computacionais estão especificamente relacionados com a formação de modelos de IA e não com a sua inferência ou utilização prática.

Gil explica que existem dois tipos de motores de IA: modelos genéricos e especializados. Os modelos genéricos requerem extensos recursos computacionais e são usados por grandes empresas que lidam com grandes quantidades de dados. Devido aos elevados custos, poderá haver menos jogadores nesta categoria. No entanto, ele expressa entusiasmo com o segundo tipo – modelos especializados. Esses modelos se concentram na resolução excepcional de problemas específicos e não exigem longos períodos de uso de computação como os modelos genéricos. Ele vê esta especialização como o futuro da indústria, onde as empresas oferecerão soluções únicas e poderosas baseadas nos seus dados especializados, levando a uma nova economia no campo da IA.