Google Keynote mostra drivers de ML no Hot Chips 23 | Núcleos Co. de Zhongshan SMC, Ltd

Por John Russell

31 de agosto de 2023

Os cientistas do Google, Jeff Dean e Amin Vahdat, fizeram um tour fascinante pelas principais tendências de design de hardware e software de ML em sua palestra de abertura conjunta do Hot Chips 23 esta semana. A dupla abordou o aumento da dispersão em relação à densidade, os esforços em comunicações adaptativas, o desenvolvimento de melhores métricas de consumo de energia e desempenho do sistema e o design acelerado de chips baseado em IA, entre outros tópicos.

Dean e Vahdat deixaram poucas pedras sobre pedra, embora nenhuma notícia bem guardada do Google tenha sido revelada. Parece provável que alguns destes últimos surjam no evento Google Cloud Next 23, que começa hoje em São Francisco. No entanto, as pinceladas gerais de Dean e Vahdat enfatizaram a necessidade de acelerar o progresso, uma vez que a procura por computação de ML é impulsionada por muitos factores, incluindo, claro, o tamanho crescente (número de parâmetros) dos modelos que ultrapassa a capacidade da infra-estrutura.

“Obviamente, nos últimos anos, o aprendizado de máquina mudou nossas expectativas sobre o que consideramos possível com os computadores”, disse Dean. “Os computadores agora podem compreender imagens, compreender a fala e compreender a linguagem muito melhor do que nunca, e isso abre um conjunto interessante de novas possibilidades. Outra observação é que aumentar a escala, utilizar mais computação, mais dados e criar modelos maiores proporciona melhores resultados. E os tipos de cálculos que queremos executar, o hardware em que queremos executá-los, estão mudando drasticamente.

“Acho que essa é uma lição importante para os designers de hardware de computador: precisamos ser capazes de acompanhar o cenário cada vez melhor de pesquisa de ML. No restante da palestra, quero falar sobre algumas tendências importantes e modelos de aprendizado de máquina, algumas implicações para arquitetos de computação e como podemos projetar hardware de ML e implantá-lo rapidamente para acompanhar o campo em rápida evolução.”

Às vezes, é melhor começar primeiro com as conclusões.

Dean, cientista-chefe do Google, apresentou a primeira metade da palestra, investigando (principalmente) as tendências de design de hardware. Vahdat, Google Fellow e líder técnico em redes, abordou o esforço do Google para reduzir as emissões de carbono e passou bastante tempo discutindo a métrica Goodput do Google. Vahdat observou: “O Google se comprometeu publicamente a operar 24 horas por dia, 7 dias por semana, sem carbono até 2030. Uma meta realmente ambiciosa”.

Foi uma conversa ambiciosa. Apresentamos aqui alguns de seus slides e comentários de Dean sobre as tendências do modelo de ML, incluindo dispersão, computação adaptativa e redes neurais que mudam dinamicamente. HPCwire fará cobertura posterior dos comentários de Vahdat.

“Modelos densos, que são provavelmente as redes neurais com as quais você está mais familiarizado, são aqueles em que todo o modelo é ativado para cada exemplo de entrada ou para cada token gerado, e é o foco da grande maioria da comunidade de aprendizado de máquina . Embora sejam excelentes e tenham conseguido realizar muitas coisas excelentes, a computação esparsa será uma tendência importante no futuro”, disse Dean.

“Modelos esparsos têm caminhos diferentes que são chamados de forma adaptativa conforme necessário. Em vez de ter este modelo gigante, estes modelos esparsos podem ser muito mais eficientes. Eles apenas recorrem às peças certas do modelo geral. E o aspecto das peças certas também é algo que se aprende durante o processo de treinamento. Diferentes partes do modelo podem então ser especializadas para diferentes tipos de entradas. O resultado final é que você acaba com algo em que toca apenas 1% ou 10% certo de algum modelo muito grande e isso proporciona melhor capacidade de resposta e maior precisão.

Como Dean e colegas observaram em um artigo de 2022 (A Review of Sparse Expert Models in Deep Learning), a dispersão não é novidade.

Nesse artigo, eles escrevem: “Modelos especialistas esparsos são um conceito de trinta anos que ressurge como uma arquitetura popular em aprendizagem profunda. Esta classe de arquitetura abrange mistura de especialistas, transformadores de switch, redes de roteamento, camadas BASE e outros, todos com a ideia unificadora de que cada exemplo é acionado por um subconjunto de parâmetros. Ao fazer isso, o grau de dispersão desacopla a contagem de parâmetros da computação por exemplo, permitindo modelos extremamente grandes, mas eficientes. Os modelos resultantes demonstraram melhorias significativas em diversos domínios, como processamento de linguagem natural, visão computacional e reconhecimento de fala.”