Então você ouviu esses termos de IA e concordou com a cabeça

Então você ouviu esses termos de IA e concordou com a cabeça

A inteligência artificial está mudando o mundo e, simultaneamente, inventando uma linguagem totalmente nova para descrever como isso está acontecendo. Passe cinco minutos lendo sobre IA e você encontrará LLMs, RAG, RLHF e uma dúzia de outros termos que podem fazer até mesmo pessoas muito inteligentes no mundo da tecnologia se sentirem inseguras. Este glossário é nossa tentativa de corrigir isso. Nós o atualizamos regularmente à medida que o campo evolui, então considere-o um documento vivo, muito parecido com os sistemas de IA que ele descreve.

AGI

Inteligência artificial geral, ou AGI, é um termo nebuloso. Mas geralmente se refere à IA que é mais capaz do que o ser humano médio em muitas, senão na maioria, das tarefas. O CEO da OpenAI, Sam Altman, uma vez descreveu a AGI como o “equivalente de um humano mediano que você poderia contratar como colega de trabalho”. Enquanto isso, o estatuto da OpenAI define AGI como “sistemas altamente autônomos que superam os humanos na maioria do trabalho economicamente valioso”. A compreensão do Google DeepMind difere ligeiramente dessas duas definições; o laboratório vê a AGI como “IA que é pelo menos tão capaz quanto os humanos na maioria das tarefas cognitivas”. Confuso? Não se preocupe – até a “madrinha da IA” não tem ideia do que é AGI.

Agente de IA

Um agente de IA refere-se a uma ferramenta que usa tecnologias de IA para realizar uma série de tarefas em seu nome – além do que um chatbot de IA mais básico poderia fazer – como arquivar despesas, reservar passagens ou uma mesa em um restaurante, ou até mesmo escrever e manter código. No entanto, como explicamos antes, há muitas peças em movimento neste espaço emergente, então “agente de IA” pode significar coisas diferentes para pessoas diferentes. A infraestrutura também ainda está sendo construída para entregar suas capacidades previstas. Mas o conceito básico implica um sistema autônomo que pode usar múltiplos sistemas de IA para realizar tarefas de várias etapas.

Endpoints de API

Pense em endpoints de API como “botões” na parte de trás de um software que outros programas podem pressionar para fazê-lo fazer coisas. Desenvolvedores usam essas interfaces para construir integrações – por exemplo, permitindo que um aplicativo puxe dados de outro, ou permitindo que um agente de IA controle serviços de terceiros diretamente sem um humano operando manualmente cada interface. A maioria dos dispositivos domésticos inteligentes e plataformas conectadas têm esses botões ocultos disponíveis, mesmo que usuários comuns nunca os vejam ou interajam com eles. À medida que os agentes de IA se tornam mais capazes, eles são cada vez mais capazes de encontrar e usar esses endpoints por conta própria, abrindo possibilidades poderosas – e às vezes inesperadas – para automação.

Cadeia de Pensamento

Dada uma pergunta simples, um cérebro humano pode responder sem nem mesmo pensar muito sobre isso – coisas como “qual animal é mais alto, uma girafa ou um gato?”. Mas em muitos casos, você muitas vezes precisa de papel e caneta para chegar à resposta certa porque há etapas intermediárias. Por exemplo, se um fazendeiro tem galinhas e vacas, e juntas elas têm 40 cabeças e 120 pernas, você pode precisar escrever uma equação simples para chegar à resposta (20 galinhas e 20 vacas).

Em um contexto de IA, o raciocínio em cadeia de pensamento para modelos de linguagem grandes significa dividir um problema em etapas menores e intermediárias para melhorar a qualidade do resultado final. Geralmente leva mais tempo para obter uma resposta, mas a resposta é mais provável de estar correta, especialmente em um contexto de lógica ou codificação. Modelos de raciocínio são desenvolvidos a partir de modelos de linguagem grandes tradicionais e otimizados para pensamento em cadeia de pensamento graças ao aprendizado por reforço.

(Veja: Modelo de linguagem grande)

Agentes de Codificação

Este é um conceito mais específico do que um “agente de IA”, que significa um programa que pode tomar ações por conta própria, passo a passo, para completar um objetivo. Um agente de codificação é uma versão especializada aplicada ao desenvolvimento de software. Em vez de simplesmente sugerir código para um humano revisar e colar, um agente de codificação pode escrever, testar e depurar código autonomamente, lidando com o tipo de trabalho iterativo e de tentativa e erro que normalmente consome o dia de um desenvolvedor. Esses agentes podem operar em bases de código inteiras, identificando bugs, executando testes e enviando correções com supervisão humana mínima. Pense nisso como contratar um estagiário muito rápido que nunca dorme e nunca perde o foco – embora, como com qualquer estagiário, um humano ainda precise revisar o trabalho.

Computação

Embora seja um termo multivalente, computação geralmente se refere ao poder computacional vital que permite que os modelos de IA operem. Este tipo de processamento alimenta a indústria de IA, dando-lhe a capacidade de treinar e implantar seus modelos poderosos. O termo é frequentemente uma abreviação para os tipos de hardware que fornecem o poder computacional – coisas como GPUs, CPUs, TPUs e outras formas de infraestrutura que formam a base da indústria moderna de IA.

Aprendizado Profundo

Um subconjunto de aprendizado de máquina auto-aprimorável em que algoritmos de IA são projetados com uma estrutura de rede neural artificial (ANN) multicamadas. Isso permite que eles façam correlações mais complexas em comparação com sistemas mais simples baseados em aprendizado de máquina, como modelos lineares ou árvores de decisão. A estrutura dos algoritmos de aprendizado profundo inspira-se nas vias interconectadas dos neurônios no cérebro humano.

Modelos de IA de aprendizado profundo são capazes de identificar características importantes nos dados por si mesmos, em vez de exigir que engenheiros humanos definam essas características. A estrutura também suporta algoritmos que podem aprender com erros e, através de um processo de repetição e ajuste, melhorar seus próprios resultados. No entanto, sistemas de aprendizado profundo requerem muitos pontos de dados para gerar bons resultados (milhões ou mais). Eles também levam tipicamente mais tempo para treinar em comparação com algoritmos de aprendizado de máquina mais simples – portanto, os custos de desenvolvimento tendem a ser mais altos.

(Veja: Rede neural)

Difusão

Difusão é a tecnologia no centro de muitos modelos de IA que geram arte, música e texto. Inspirados pela física, os sistemas de difusão “destroem” lentamente a estrutura dos dados – por exemplo, fotos, músicas e assim por diante – adicionando ruído até que não reste nada. Na física, a difusão é espontânea e irreversível – o açúcar difundido no café não pode ser restaurado à forma de cubo. Mas os sistemas de difusão em IA visam aprender uma espécie de processo de “difusão reversa” para restaurar os dados destruídos, ganhando a capacidade de recuperar os dados do ruído.

Destilação

A destilação é uma técnica usada para extrair conhecimento de um grande modelo de IA com um modelo ‘professor-aluno’. Desenvolvedores enviam requisições para um modelo professor e registram as saídas. As respostas são, por vezes, comparadas com um conjunto de dados para verificar a sua precisão. Estas saídas são então usadas para treinar o modelo aluno, que é treinado para aproximar o comportamento do professor.

A destilação pode ser usada para criar um modelo menor e mais eficiente com base num modelo maior, com uma perda de destilação mínima. É provável que seja assim que a OpenAI desenvolveu o GPT-4 Turbo, uma versão mais rápida do GPT-4.

Embora todas as empresas de IA usem destilação internamente, algumas empresas de IA podem também tê-la usado para alcançar modelos de ponta. A destilação de um concorrente geralmente viola os termos de serviço da API de IA e dos assistentes de chat.

Ajuste Fino (Fine-tuning)

Refere-se ao treinamento adicional de um modelo de IA para otimizar o desempenho para uma tarefa ou área mais específica do que era anteriormente um ponto focal do seu treinamento — tipicamente, alimentando novos dados especializados (ou seja, orientados para a tarefa).

Muitas startups de IA estão a usar grandes modelos de linguagem como ponto de partida para construir um produto comercial, mas estão a competir para aumentar a utilidade para um setor ou tarefa alvo, complementando os ciclos de treinamento anteriores com ajuste fino com base no seu próprio conhecimento e experiência específicos do domínio.

(Ver: Grande Modelo de Linguagem [LLM])

GAN

Uma GAN, ou Rede Adversária Generativa (Generative Adversarial Network), é um tipo de framework de aprendizado de máquina que sustenta alguns desenvolvimentos importantes em IA generativa quando se trata de produzir dados realistas — incluindo (mas não apenas) ferramentas de deepfake. As GANs envolvem o uso de um par de redes neurais, uma das quais se baseia nos seus dados de treinamento para gerar uma saída que é passada para o outro modelo para avaliação.

Os dois modelos são essencialmente programados para tentar superar um ao outro. O gerador está a tentar fazer com que a sua saída passe pelo discriminador, enquanto o discriminador está a trabalhar para detetar dados gerados artificialmente. Esta competição estruturada pode otimizar as saídas de IA para serem mais realistas, sem a necessidade de intervenção humana adicional. Embora as GANs funcionem melhor para aplicações mais restritas (como a produção de fotos ou vídeos realistas), em vez de IA de propósito geral.

Alucinação (Hallucination)

Alucinação é o termo preferido na indústria de IA para modelos de IA que inventam coisas — gerando literalmente informações incorretas. Obviamente, é um grande problema para a qualidade da IA.

As alucinações produzem saídas de GenAI que podem ser enganosas e podem até levar a riscos na vida real — com consequências potencialmente perigosas (pense numa consulta de saúde que retorna conselhos médicos prejudiciais).

Acredita-se que o problema de as IAs fabricarem informações surja como consequência de lacunas nos dados de treinamento. As alucinações estão a contribuir para um impulso em direção a modelos de IA cada vez mais especializados e/ou verticais — ou seja, IAs específicas de domínio que requerem expertise mais restrita — como uma forma de reduzir a probabilidade de lacunas de conhecimento e diminuir os riscos de desinformação.

Inferência (Inference)

Inferência é o processo de execução de um modelo de IA. É colocar um modelo em liberdade para fazer previsões ou tirar conclusões de dados previamente vistos. Para ser claro, a inferência não pode acontecer sem treinamento; um modelo deve aprender padrões num conjunto de dados antes de poder extrapolar eficazmente a partir desses dados de treinamento.

Muitos tipos de hardware podem realizar inferência, desde processadores de smartphones a GPUs potentes e aceleradores de IA projetados sob medida. Mas nem todos eles conseguem executar modelos igualmente bem. Modelos muito grandes levariam uma eternidade para fazer previsões, digamos, num laptop em comparação com um servidor na nuvem com chips de IA de ponta.

[Ver: Treinamento]

Grande Modelo de Linguagem (LLM)

Grandes modelos de linguagem, ou LLMs, são os modelos de IA usados por assistentes de IA populares, como ChatGPT, Claude, Gemini do Google, Llama da Meta AI, Microsoft Copilot, ou Le Chat da Mistral. Quando você conversa com um assistente de IA, você interage com um grande modelo de linguagem que processa sua requisição diretamente ou com a ajuda de diferentes ferramentas disponíveis, como navegação na web ou interpretadores de código.

LLMs são redes neurais profundas compostas por bilhões de parâmetros numéricos (ou pesos, veja abaixo) que aprendem as relações entre palavras e frases e criam uma representação da linguagem, uma espécie de mapa multidimensional de palavras.

Esses modelos são criados a partir da codificação dos padrões que encontram em bilhões de livros, artigos e transcrições. Quando você solicita algo a um LLM, o modelo gera o padrão mais provável que se ajusta à sua solicitação.

(Ver: Rede Neural)

Cache de Memória (Memory cache)

Cache de memória refere-se a um processo importante que impulsiona a inferência (que é o processo pelo qual a IA trabalha para gerar uma resposta a uma consulta do usuário). Em essência, o cache é uma técnica de otimização, projetada para tornar a inferência mais eficiente. A IA é obviamente impulsionada por cálculos matemáticos de alta octanagem e cada vez que esses cálculos são feitos, eles consomem mais energia. O cache é projetado para reduzir o número de cálculos que um modelo pode ter que executar, salvando cálculos específicos para futuras consultas e operações do usuário. Existem diferentes tipos de cache de memória, embora um dos mais conhecidos seja o cache KV (ou chave-valor). O cache KV funciona em modelos baseados em transformadores e aumenta a eficiência, gerando resultados mais rápidos ao reduzir o tempo (e o trabalho algorítmico) necessário para gerar respostas às perguntas do usuário.

(Ver: Inferência)

Rede Neural (Neural network)

Uma rede neural refere-se à estrutura algorítmica de múltiplas camadas que sustenta o aprendizado profundo — e, mais amplamente, todo o boom em ferramentas de IA generativa após o surgimento de grandes modelos de linguagem.

Embora a ideia de se inspirar nos caminhos densamente interconectados do cérebro humano como uma estrutura de design para algoritmos de processamento de dados remonte aos anos 1940, foi o surgimento muito mais recente de hardware de processamento gráfico (GPUs) — através da indústria de videogames — que realmente desbloqueou o poder dessa teoria. Esses chips provaram ser adequados para treinar algoritmos com muito mais camadas do que era possível em épocas anteriores — permitindo que sistemas de IA baseados em redes neurais alcançassem um desempenho muito melhor em muitos domínios, incluindo reconhecimento de voz, navegação autônoma e descoberta de medicamentos.

(Ver: Grande Modelo de Linguagem [LLM])

Código Aberto (Open source)

Open source refere-se a software — ou, cada vez mais, a modelos de IA — onde o código subjacente é disponibilizado publicamente para que qualquer pessoa possa usar, inspecionar ou modificar. No mundo da IA, a família de modelos Llama da Meta é um exemplo proeminente; o Linux é o famoso paralelo histórico em sistemas operacionais. Abordagens de código aberto permitem que pesquisadores, desenvolvedores e empresas em todo o mundo construam sobre o trabalho uns dos outros, acelerando o progresso e permitindo auditorias de segurança independentes que sistemas fechados não podem fornecer facilmente. Código fechado significa que o código é privado — você pode usar o produto, mas não ver como ele funciona, como é o caso dos modelos GPT da OpenAI — uma distinção que se tornou um dos debates definidores na indústria de IA.

Parallelization

Paralelização significa fazer muitas coisas ao mesmo tempo em vez de uma após a outra — como ter 10 funcionários trabalhando em diferentes partes de um projeto ao mesmo tempo, em vez de um funcionário fazendo tudo sequencialmente. Em IA, a paralelização é fundamental tanto para o treinamento quanto para a inferência: GPUs modernas são projetadas especificamente para realizar milhares de cálculos em paralelo, o que é um grande motivo pelo qual elas se tornaram a espinha dorsal de hardware da indústria. À medida que os sistemas de IA crescem em complexidade e os modelos se tornam maiores, a capacidade de paralelizar o trabalho em muitos chips e muitas máquinas tornou-se um dos fatores mais importantes para determinar a rapidez e a eficácia com que os modelos podem ser construídos e implantados. A pesquisa em melhores estratégias de paralelização é agora um campo de estudo por si só.

RAMageddon

RAMageddon é o novo e divertido termo para uma tendência nada divertida que está varrendo a indústria de tecnologia: uma escassez cada vez maior de memória de acesso aleatório, ou chips de RAM, que alimentam praticamente todos os produtos de tecnologia que usamos em nossas vidas diárias. À medida que a indústria de IA floresceu, as maiores empresas de tecnologia e laboratórios de IA — todos competindo para ter a IA mais poderosa e eficiente — estão comprando tanta RAM para alimentar seus data centers que não sobra muito para o resto de nós. E esse gargalo de suprimento significa que o que resta está ficando cada vez mais caro.

Isso inclui indústrias como jogos (onde grandes empresas tiveram que aumentar os preços dos consoles porque é mais difícil encontrar chips de memória para seus dispositivos), eletrônicos de consumo (onde a escassez de memória pode causar o maior declínio nas remessas de smartphones em mais de uma década) e computação corporativa geral (porque essas empresas não conseguem RAM suficiente para seus próprios data centers). Espera-se que o aumento dos preços pare apenas após o fim da temida escassez, mas, infelizmente, não há realmente muitos sinais de que isso vá acontecer tão cedo.

Reinforcement learning

Aprendizado por reforço é uma forma de treinar IA onde um sistema aprende tentando coisas e recebendo recompensas por respostas corretas — como treinar seu amado animal de estimação com petiscos, exceto que o “animal de estimação” neste cenário é uma rede neural e o “petisco” é um sinal matemático indicando sucesso. Ao contrário do aprendizado supervisionado, onde um modelo é treinado em um conjunto de dados fixo de exemplos rotulados, o aprendizado por reforço permite que um modelo explore seu ambiente, tome ações e atualize continuamente seu comportamento com base no feedback que recebe. Essa abordagem provou ser especialmente poderosa para treinar IA para jogar jogos, controlar robôs e, mais recentemente, aprimorar a capacidade de raciocínio de grandes modelos de linguagem. Técnicas como aprendizado por reforço a partir de feedback humano, ou RLHF, são agora centrais para como os principais laboratórios de IA ajustam seus modelos para serem mais úteis, precisos e seguros.

Token

Quando se trata de comunicação humano-máquina, existem alguns desafios óbvios — as pessoas se comunicam usando linguagem humana, enquanto os programas de IA executam tarefas através de processos algorítmicos complexos informados por dados. Tokens preenchem essa lacuna: eles são os blocos de construção básicos da comunicação humano-IA, representando segmentos discretos de dados que foram processados ou produzidos por um LLM. Eles são criados através de um processo chamado tokenização, que divide o texto bruto em unidades de tamanho de mordida que um modelo de linguagem pode digerir, semelhante a como um compilador traduz a linguagem humana em código binário que um computador pode entender. Em ambientes corporativos, os tokens também determinam o custo — a maioria das empresas de IA cobra pelo uso de LLM por token, o que significa que quanto mais uma empresa usa, mais ela paga.

Token throughput

Portanto, novamente, tokens são os pequenos pedaços de texto — muitas vezes partes de palavras em vez de palavras inteiras — em que os modelos de linguagem de IA dividem a linguagem antes de processá-la; eles são aproximadamente análogos a “palavras” para fins de compreensão de cargas de trabalho de IA. Throughput refere-se a quanto pode ser processado em um determinado período de tempo, então token throughput é essencialmente uma medida de quanto trabalho de IA um sistema pode lidar de uma vez. Alto token throughput é um objetivo chave para equipes de infraestrutura de IA, pois determina quantos usuários um modelo pode atender simultaneamente e com que rapidez cada um deles recebe uma resposta. O pesquisador de IA Andrej Karpathy descreveu sentir ansiedade quando suas assinaturas de IA ficam ociosas — ecoando o sentimento que ele teve como estudante de pós-graduação quando hardware de computador caro não estava sendo totalmente utilizado — um sentimento que captura por que maximizar o token throughput se tornou uma obsessão no campo.

Training

O desenvolvimento de IAs de aprendizado de máquina envolve um processo conhecido como treinamento. Em termos simples, isso se refere à entrada de dados para que o modelo possa aprender com padrões e gerar saídas úteis. Essencialmente, é o processo em que o sistema responde às características nos dados, o que lhe permite adaptar as saídas a um objetivo desejado — seja identificar imagens de gatos ou produzir um haicai sob demanda.

O treinamento pode ser caro porque requer muitos inputs, e os volumes necessários têm aumentado — é por isso que abordagens híbridas, como o ajuste fino de uma IA baseada em regras com dados direcionados, podem ajudar a gerenciar custos sem começar totalmente do zero.

[Ver: Inference]

Transfer learning

Uma técnica onde um modelo de IA previamente treinado é usado como ponto de partida para desenvolver um novo modelo para uma tarefa diferente, mas tipicamente relacionada — permitindo que o conhecimento adquirido em ciclos de treinamento anteriores seja reaplicado.

O aprendizado por transferência pode gerar economias de eficiência ao acelerar o desenvolvimento do modelo. Também pode ser útil quando os dados para a tarefa para a qual o modelo está sendo desenvolvido são um tanto limitados. Mas é importante notar que a abordagem tem limitações. Modelos que dependem de aprendizado por transferência para obter capacidades generalizadas provavelmente exigirão treinamento em dados adicionais para ter um bom desempenho em seu domínio de foco.

(Ver: Fine tuning)

Weights

Os pesos são centrais para o treinamento de IA, pois determinam quanta importância (ou peso) é dada a diferentes características (ou variáveis de entrada) nos dados usados para treinar o sistema — moldando assim a saída do modelo de IA.

Por exemplo, um modelo de IA para prever preços de imóveis que é treinado em dados imobiliários históricos para uma localização alvo pode incluir pesos para características como o número de quartos e banheiros, se uma propriedade é isolada ou geminada, se tem estacionamento, uma garagem, e assim por diante.

Em última análise, os pesos que o modelo atribui a cada um desses inputs refletem o quanto eles influenciam o valor de uma propriedade, com base no conjunto de dados fornecido.

Validation loss

A perda de validação é um número que indica o quão bem um modelo de IA está aprendendo durante o treinamento — e quanto menor, melhor. Pesquisadores a acompanham de perto como uma espécie de boletim em tempo real, usando-a para decidir quando parar o treinamento, quando ajustar hiperparâmetros ou se devem investigar um problema potencial. Uma das principais preocupações que ela ajuda a sinalizar é o overfitting, uma condição na qual um modelo memoriza seus dados de treinamento em vez de realmente aprender padrões que possa generalizar para novas situações. Pense nisso como a diferença entre um aluno que realmente entende o material e um que simplesmente memorizou a prova do ano passado — a perda de validação ajuda a revelar qual deles seu modelo está se tornando.

Este artigo é atualizado regularmente com novas informações.

Fonte: Techcrunch