Recentemente, a Google DeepMind apresentou uma pesquisa que promete revolucionar a forma como vemos os modelos de linguagem multilíngues. Batizado de ATLAS, esse conjunto de leis de escalonamento formaliza a relação entre o tamanho do modelo, o volume de dados de treinamento e as misturas de idiomas. O mais interessante? Esse trabalho se baseia em mais de 774 execuções controladas, abrangendo modelos de 10 milhões a 8 bilhões de parâmetros e avaliando desempenho em 48 idiomas-alvo. Vamos explorar isso mais a fundo!

O que é ATLAS?

ATLAS não é apenas mais um modelo que promete eficiência. Ele vai além, pois desafia as leis de escalonamento tradicionais que, em sua maioria, foram derivadas de regimes de treinamento em inglês. O que isso significa? Que esses modelos antigos não oferecem uma direção clara para aqueles que trabalham com múltiplas línguas. O ATLAS, por outro lado, modela explicitamente a transferência entre línguas e os trade-offs de eficiência que surgem com o treinamento multilíngue.

Como funciona.?

No núcleo do ATLAS está uma matriz de transferência entre línguas que avalia como o treinamento em uma língua pode afetar o desempenho em outra. Esse estudo revelou que a transferência positiva entre idiomas é fortemente correlacionada com a presença de scripts compartilhados e famílias linguísticas. Por exemplo., línguas escandinavas se beneficiam mutuamente, enquanto malaio e indonésio formam um par de alta transferência. É curioso como idiomas como inglês, francês e espanhol se destacam como fontes úteis, provavelmente devido à escala e diversidade dos dados. Mas, atenção: os efeitos de transferência não são simétricos!

Cura da Multilinguidade

Uma das descobertas mais intrigantes do ATLAS é a chamada “maldição da multilinguidade”. Em resumo, isso significa que a performance por língua tende a cair à medida que mais idiomas são adicionados a um modelo com capacidade fixa. O estudo revelou que, para dobrar o número de idiomas enquanto se mantém a performance, é necessário aumentar o tamanho do modelo em cerca de 1,18 vezes e o volume total de dados de treinamento em 1,66 vezes. Parece complicado, né? Mas a transferência cruzada entre línguas pode ajudar a compensar a diminuição dos dados por idioma.

Quando é melhorr pré-treinar ou afinar?

Outro ponto que vale a pena destacar é a análise sobre a eficácia do pré-treinamento de um modelo multilíngue do zero em comparação ao fine-tuning de um checkpoint existente. A pesquisa mostrou que o fine-tuning é mais eficiente em termos de computação em orçamentos de token mais baixos. No entanto, quando os dados de treinamento e a computação superam um certo limite, o pré-treinamento se torna vantajoso. Para modelos de 2 bilhões de parâmetros, essa transição ocorre normalmente entre 144 bilhões e 283 bilhões de tokens. Prático, não?

Reflexões Finais

O lançamento do ATLAS não apenas traz novas perspectivas sobre como modelos multilíngues devem ser projetados, mas também instiga discussões sobre alternativas de arquitetura. Uma pergunta que ficou no ar foi: até que ponto seria útil criar um modelo de tradução pura, menor e mais eficiente? Embora o ATLAS não forneça uma resposta direta, suas medidas de transferência e regras de escalonamento oferecem uma base quantitativa para explorar designs multilíngues modulares ou especializados.

Para todos nós que trabalhamos com inteligência artificial e desenvolvimento de software, isso é um convite para refletir: estamos prontos para explorar essas novas possibilidades? É hora de pensar fora da caixa e considerar como a arquitetura de software pode se adaptar a essas inovações!