Tag: IA

  • Runway na mira: AI treinado ilegalmente com vídeos do YouTube

    Runway na mira: AI treinado ilegalmente com vídeos do YouTube

    A startup bilionária Runway, conhecida por sua ferramenta de geração de vídeo por texto, está em meio a uma polêmica envolvendo a utilização não autorizada de conteúdo do YouTube. De acordo com informações obtidas pelo site 404 Media, a empresa teria utilizado milhares de vídeos da plataforma, incluindo canais de grandes empresas como Nintendo, Disney, Rockstar Games, Netflix e Sony, para treinar seu modelo de inteligência artificial.

    Um funcionário anônimo da Runway confirmou ao 404 Media que houve um esforço conjunto dentro da empresa para identificar vídeos de alta qualidade para alimentar o modelo. Esses vídeos foram então coletados em massa por meio de um rastreador web que contornou as proteções do Google.

    O gerador de vídeo, oficialmente chamado de Gen-3, recebeu elogios quando foi lançado no início deste ano, com investimentos de gigantes como Google e Nvidia. No entanto, a utilização de vídeos do YouTube para treinamento de IA é uma violação das políticas da plataforma, como destacou uma reportagem anterior da Bloomberg.

    Embora não tenha sido confirmado se o conteúdo da Nintendo foi usado especificamente para treinar o Gen-3, a presença dos canais da empresa em uma lista interna da Runway é motivo de preocupação. A Nintendo é conhecida por sua postura rígida na proteção de propriedade intelectual e frequentemente toma medidas contra casos de pirataria.

    É esperado que a empresa japonesa investigue o assunto mais profundamente nos próximos meses.

  • Gemini: Google expande acesso e melhora desempenho do Chatbot

    Gemini: Google expande acesso e melhora desempenho do Chatbot

    A Google anunciou nesta quinta-feira uma série de melhorias em seu chatbot baseado em inteligência artificial, o Gemini. A atualização busca tornar a plataforma mais rápida, acessível e precisa, intensificando a competição no mercado de IA generativa dominado por empresas como OpenAI e Anthropic.

    O Gemini 1.5 Flash, uma versão mais leve do modelo multimodal apresentado em maio, estará disponível gratuitamente na web e em dispositivos móveis em 40 idiomas e cerca de 230 países. A gigante da tecnologia afirma que essa versão apresenta melhorias significativas em qualidade e velocidade de resposta, especialmente nas áreas de raciocínio e compreensão de imagens.

    Além disso, a Google aumentou o contexto que o Gemini pode processar de uma só vez para 32 mil tokens, o equivalente a aproximadamente 24 mil palavras. Essa expansão permite que o chatbot analise e resuma textos mais longos, além de melhorar a continuidade das conversas.

    Outra novidade é a possibilidade de upload de arquivos para análise, uma função antes restrita à versão paga do Gemini. Agora, usuários poderão enviar documentos do Google Drive ou dispositivos locais para o chatbot processar.

    Para combater as famosas “alucinações” – respostas incorretas ou inventadas –, a Google está testando um recurso que exibe links para conteúdo relacionado abaixo de determinadas respostas geradas pelo Gemini. A medida visa aumentar a transparência sobre as fontes de informação utilizadas pelo chatbot.

    A empresa também está expandindo o acesso ao Gemini em outras plataformas. O chatbot estará disponível no aplicativo de mensagens em mais países, incluindo a Europa, e será lançado para adolescentes em todo o mundo.

    No entanto, a Google enfatiza que implementará medidas de segurança adicionais para proteger os jovens usuários. A empresa reconhece os potenciais riscos do uso indevido da IA por adolescentes, como plágio e obtenção de informações inadequadas.

    Com essas mudanças, a Google busca consolidar sua posição no competitivo mercado de chatbots e oferecer uma ferramenta mais eficiente e acessível aos usuários.

  • Elon Musk começa a treinar a “IA mais poderosa do mundo”

    Elon Musk começa a treinar a “IA mais poderosa do mundo”

    Elon Musk anunciou em sua rede social que deu início ao treinamento de seu novo supercomputador, batizado de Memphis Supercluster. De acordo com o bilionário, trata-se do “cluster de treinamento de IA mais poderoso do mundo”, equipado com impressionantes 100 mil GPUs Nvidia H100 refrigeradas a líquido. O objetivo é ambicioso: criar a “IA mais poderosa do mundo em todos os aspectos” até dezembro deste ano.

    O sistema começou a operar na madrugada desta terça-feira, em um feito que Musk atribuiu ao trabalho conjunto de sua equipe, a Nvidia e outras empresas envolvidas. A escolha pelas GPUs H100 atuais, em vez de aguardar as próximas gerações, revela a pressa do empresário em alcançar seus objetivos.

    Com essa infraestrutura colossal, a xAI, empresa de inteligência artificial de Musk, pretende acelerar o desenvolvimento do Grok 3, seu modelo de linguagem de grande escala. O Memphis Supercluster supera em muito a capacidade computacional dos atuais supercomputadores líderes mundiais, como o Frontier e o Aurora.

    A decisão de construir um supercomputador tão poderoso e em tão pouco tempo levanta questões sobre a viabilidade do projeto Gigafactory of Compute, inicialmente previsto para entrar em operação no outono de 2025. Especialistas acreditam que pode haver uma antecipação no cronograma, ou que informações anteriores sobre o projeto foram imprecisas.

    A Supermicro foi responsável por uma parte significativa do hardware do Memphis Supercluster, e seu CEO, Charles Liang, comemorou o feito ao lado de Musk. O empresário já havia elogiado anteriormente o trabalho da empresa na construção de data centers de IA com resfriamento líquido.

    Com o início do treinamento da IA, o mundo acompanha de perto os próximos passos de Musk e sua equipe, na expectativa de ver concretizada a promessa de uma inteligência artificial revolucionária.

  • IAs devem cooperar em tarefas a partir de 2025

    IAs devem cooperar em tarefas a partir de 2025

    Os sistemas, conhecidos como multi-agent AI, envolvem um conjunto de IAs que colaboram para alcançar objetivos comuns de forma distribuída. De acordo com uma previsão da gigante de tecnologia Capgemini, agentes alimentados por inteligência artificial serão capazes de trabalhar em conjunto para resolver tarefas complexas já em 2025.

    Pascal Brier, diretor de inovação da Capgemini, afirmou em entrevista à CNBC que várias empresas já estão explorando essas tecnologias. Ele acredita que aplicações utilizando múltiplos agentes autônomos se tornarão realidade no próximo ano.

    A empresa define agentes de IA como tecnologias capazes de operar independentemente, planejar, refletir, perseguir metas de alto nível e executar fluxos de trabalho complexos com mínima supervisão humana. Essencialmente, são IAs que trabalham nos bastidores para completar tarefas em nosso lugar.

    O estado atual das IAs na indústria

    IAs devem cooperar em tarefas a partir de 2025

    sOs Estados Unidos estão à frente da Europa no desenvolvimento dessa tecnologia, segundo Brier. Um novo relatório da Capgemini, intitulado “Harnessing the Value of Generative AI”, revela que 82% das empresas pesquisadas planejam integrar agentes de IA em seus negócios nos próximos três anos. Apenas 7% não têm intenção de adotar essa tecnologia.

    O estudo analisou mais de 1.100 empresas com receita anual de pelo menos US$ 1 bilhão. Brier categoriza os agentes de IA em dois tipos: agentes individuais, que executam tarefas específicas, e tecnologia multi-agent, onde os agentes colaboram entre si.

    Por exemplo, um agente de IA focado em marketing, responsável por criar uma campanha publicitária para a Alemanha, poderia trabalhar autonomamente com um agente jurídico da mesma empresa para garantir a legalidade da campanha.

    Diferentemente dos sistemas de IA tradicionais, que apenas seguem instruções, esses agentes podem compreender, interpretar, adaptar-se e agir de forma independente, sendo capazes de substituir humanos em determinadas tarefas, segundo a Capgemini.

    A primeira grande onda de IA, em 2022, focou no entendimento de prompts e modelos de linguagem de grande escala (LLMs), de acordo com Brier. Agora, a tendência é construir motores de conhecimento, utilizando IA generativa para interagir com esses motores e empregando agentes como substitutos ou copilotos para encontrar e realizar tarefas.

    A expectativa é que os agentes de IA facilitem a automação em 71% das organizações e aliviem a carga de trabalho humano em tarefas repetitivas em 64% das empresas, permitindo que os funcionários se concentrem em atividades de maior valor agregado, como experiência do cliente.

    Os desafios

    IAs devem cooperar em tarefas a partir de 2025

    No entanto, a adoção de IA generativa ainda apresenta disparidades. Enquanto grandes empresas já estão integrando essa tecnologia em várias áreas, pequenas empresas estão em estágios iniciais. A pesquisa da Capgemini mostrou que 10% das empresas com receita entre US$ 1 bilhão e US$ 5 bilhões estão implementando IA generativa, enquanto esse número salta para 49% nas empresas com receita acima de US$ 20 bilhões.

    Os setores também apresentam diferenças. O setor aeroespacial e de defesa lidera em investimento em IA generativa, com 88% das organizações adotando a tecnologia, enquanto o varejo fica em 66%.

  • Apple nega uso de modelo OpenELM na inteligência artificial em 2024

    Apple nega uso de modelo OpenELM na inteligência artificial em 2024

    A Apple negou nesta semana que seu modelo de linguagem de código aberto, o OpenELM, seja utilizado para alimentar qualquer uma de suas funcionalidades de inteligência artificial, incluindo o Apple Intelligence. A declaração da empresa veio à tona após uma recente investigação revelar que a gigante da tecnologia, juntamente com outras grandes empresas do setor, utilizou legendas de vídeos do YouTube para treinar seus modelos de IA.

    O que é o OpenELM

    Apple nega uso de modelo OpenELM na inteligência artificial

    O OpenELM é um modelo de linguagem de grande escala desenvolvido pela Apple. É um exemplo de inteligência artificial que foi criado com código aberto, o que significa que seu desenvolvimento é público e qualquer pessoa pode acessá-lo, estudá-lo e até mesmo modificá-lo.

    Esse tipo de modelo é essencial para avançar a pesquisa em inteligência artificial, permitindo que a comunidade científica colabore e compartilhe conhecimento. No entanto, é importante destacar que, apesar de ser um modelo avançado, a Apple afirmou que o OpenELM não é utilizado em seus produtos comerciais, como o Apple Intelligence.

    O OpenELM foi lançado pela Apple em abril deste ano como uma contribuição para a comunidade de pesquisa e para avançar o desenvolvimento de modelos de linguagem de grande escala de código aberto. A empresa afirma que o modelo foi criado exclusivamente para fins de pesquisa e não para ser integrado aos produtos comerciais.

    A controvérsia surgiu após a publicação de uma reportagem que detalhou o uso de um conjunto de dados, chamado “The Pile”, por empresas como Apple, Anthropic e NVIDIA para treinar seus modelos de IA. Esse conjunto inclui mais de 170 mil vídeos de populares criadores de conteúdo do YouTube.

    Apesar de o OpenELM ter sido treinado com base nesse conjunto de dados, a Apple enfatiza que o modelo não desempenha qualquer papel no funcionamento do Apple Intelligence. A empresa afirma que seus modelos de inteligência artificial são treinados utilizando dados licenciados, selecionados para aprimorar funcionalidades específicas, além de dados públicos coletados por seu rastreador web.

    A Apple também confirmou que não há planos para desenvolver novas versões do OpenELM.

  • YouTube: Gigantes da tecnologia usam vídeos sem autorização para treinar IA

    YouTube: Gigantes da tecnologia usam vídeos sem autorização para treinar IA

    Grandes empresas como Apple, Salesforce e Anthropic utilizaram dezenas de milhares de vídeos do YouTube sem o consentimento dos criadores de conteúdo, segundo reportagem conjunta da Proof News e Wired. Essa nova polêmica envolvendo o uso de dados para treinamento de inteligência artificial (IA) está abalando o mundo digital.

    Essas corporações tiveram acesso a esse material por meio do banco de dados “The Pile”, criado pela organização sem fins lucrativos EleutherAI. Inicialmente concebido para democratizar o acesso a conjuntos de dados para desenvolvimento de IA, o projeto acabou sendo utilizado também por grandes empresas do setor.

    Além de livros e artigos da Wikipédia, The Pile inclui legendas de 173.536 vídeos do YouTube, extraídas de 48 mil canais. Nessa lista estão nomes populares como MrBeast, PewDiePie e Marques Brownlee. Este último expressou sua indignação no Twitter, apontando que, embora a Apple não tenha coletado os dados diretamente, o problema é complexo e deve se repetir.

    Diversos veículos de comunicação tradicionais também tiveram seu conteúdo utilizado sem autorização, incluindo a Ars Technica e outras marcas do grupo Condé Nast. Ironicamente, um dos vídeos empregados no treinamento foi um curta da própria Ars Technica, cuja trama girava justamente em torno do tema da escrita por IA.

    A medida que a produção de conteúdo por IA se expande, torna-se cada vez mais difícil criar conjuntos de dados livres de material gerado por inteligência artificial. Embora o uso de The Pile seja conhecido no meio, a reportagem do Proof News trouxe novos detalhes sobre a utilização específica de legendas do YouTube, inclusive desenvolvendo uma ferramenta para pesquisar vídeos no banco de dados.

    A investigação revela o amplo alcance da coleta de dados e a limitada capacidade dos detentores de direitos autorais de controlar o uso de seu trabalho na internet. Vale ressaltar que não necessariamente esses dados foram usados para criar conteúdo competitivo, podendo servir, por exemplo, para pesquisas ou aprimoramento de ferramentas como o autocorretor.

    Diversos criadores de conteúdo expressaram surpresa e indignação com a situação. David Pakman, apresentador do The David Pakman Show, afirmou que ninguém o procurou para solicitar autorização e que o conteúdo é sua principal fonte de renda. Julia Walsh, CEO da Complexly, produtora responsável pelo SciShow, também manifestou frustração pelo uso indevido do material educativo da empresa.

    Surge ainda a questão da legalidade da ação, já que os termos de uso do YouTube proíbem o acesso automatizado a vídeos. O fundador do EleutherAI, Sid Black, defendeu a prática, alegando que o download das legendas foi feito por meio da API do YouTube, da mesma forma que um navegador comum.

    A Anthropic, uma das empresas que utilizaram o conjunto de dados, negou qualquer irregularidade, argumentando que The Pile contém apenas uma pequena fração das legendas do YouTube e que os termos de serviço da plataforma não se aplicam ao banco de dados. O Google, por sua vez, afirmou ter tomado medidas para impedir a coleta abusiva de dados, mas não forneceu detalhes.

    Este não é o primeiro caso de empresas de tecnologia sendo criticadas pelo uso de vídeos do YouTube sem autorização. A OpenAI, responsável pelo ChatGPT e pela ferramenta de geração de vídeo Sora, também é alvo de acusações semelhantes.

  • SpreadsheetLLM: Microsoft inicia uma revolução na análise de dados

    SpreadsheetLLM: Microsoft inicia uma revolução na análise de dados

    A Microsoft anunciou o SpreadsheetLLM, uma inovação que transforma a forma como lidamos com planilhas eletrônicas. Essa estrutura permite que modelos de linguagem ampla (LLMs) compreendam e analisem dados complexos em planilhas com muito mais eficiência e precisão.

    O que é um LLM?

    SpreadsheetLLM: Microsoft inicia uma revolução na análise de dados

    Um LLM, sigla para “Modelo de Linguagem Ampla”, é um tipo de inteligência artificial (IA) que lida com linguagem humana. Imagine um programa de computador que devorou livros, artigos e conversas online por anos a fio. É basicamente isso!

    LLMs usam todo esse conhecimento para entender e gerar texto. Eles podem traduzir idiomas, escrever diferentes tipos de conteúdo e até mesmo responder perguntas de forma bem articulada.

    A ferramenta da Microsoft pega esse conceito e o aplica especificamente a planilhas. Ele treina LLMs para compreender a estrutura e os dados complexos encontrados em planilhas, tornando a análise muito mais fácil e eficiente.

    O que torna o SpreadsheetLLM tão especial?

    • Compressor de planilhas: Uma tecnologia revolucionária que comprime planilhas em até 96%, permitindo que LLMs trabalhem com conjuntos de dados muito maiores do que antes.
    • Técnicas avançadas: Identifica elementos-chave da estrutura da planilha, como linhas e colunas importantes, e codifica o conteúdo das células de forma otimizada, evitando redundâncias e reduzindo o custo computacional em 96%.
    • Resultados impressionantes: Em testes, o SpreadsheetLLM superou métodos anteriores em 12,3% na detecção de tabelas em planilhas e mostrou grande habilidade em responder perguntas baseadas nos dados.

    O que isso significa para você?

    SpreadsheetLLM: Microsoft inicia uma revolução na análise de dados

    • Análise de dados mais rápida e eficiente: Permite que você obtenha insights de seus dados de planilhas mais rapidamente e com mais facilidade.
    • Respostas precisas às suas perguntas: Faça perguntas aos seus dados e obtenha respostas precisas e relevantes.
    • Interações inteligentes com dados: O SpreadsheetLLM abre caminho para interações mais intuitivas e inteligentes com seus dados de planilhas.

    O futuro da análise de planilhas está aqui!

    SpreadsheetLLM: Microsoft inicia uma revolução na análise de dados

    Esta ferramenta representa um grande salto na aplicação de LLMs para análise de planilhas. A Microsoft acredita que essa tecnologia transformará a forma como trabalhamos com dados e beneficiará usuários de diversos setores.

  • Modelos de IA generativa: Tokens, limitações e soluções em potencial

    Modelos de IA generativa: Tokens, limitações e soluções em potencial

    Modelos de IA Generativa, como o GPT-4, revolucionaram a forma como processamos e geramos texto. No entanto, esses modelos apresentam limitações significativas, muitas das quais podem ser atribuídas à forma como eles dividem o texto em partes menores chamadas “tokens”.

    Imagine um modelo de IA que precisa ler e entender um livro. Seria muito difícil para o modelo processar o livro inteiro de uma só vez, como se fosse um grande bloco de texto. É aí que os tokens entram em ação, imagine que o livro seja dividido em pequenos pedaços, como capítulos, parágrafos e frases. Cada um desses pedaços menores pode ser chamado de “token”. Os tokens são como as “palavras” que o modelo de IA usa para entender o livro.

    Problemas com Tokens:

    • Viés: Tokens podem ter espaçamento inconsistente ou letras maiúsculas/minúsculas, levando a interpretações erradas pelo modelo. Por exemplo, “era uma vez” e “era uma ” podem ser tokenizados de forma diferente, alterando o significado.
    • Desigualdade linguística: Idiomas como chinês ou japonês não usam espaços para separar palavras, o que confunde os tokenizadores. Isso leva a modelos mais lentos e menos precisos para esses idiomas.
    • Matemática: Tokens não capturam a relação entre números, tornando os modelos ruins em tarefas matemáticas. Por exemplo, “380” pode ser tokenizado como um único token, enquanto “381” pode ser dividido em dois, confundindo o modelo.

    Impacto das Limitações:

    • Interpretação incorreta: Modelos podem gerar resultados incorretos ou sem sentido devido à má interpretação do texto.
    • Desempenho desigual: Modelos podem ter um desempenho inferior em idiomas diferentes do inglês, especialmente em tarefas complexas como tradução ou escrita criativa.
    • Precisão matemática limitada: Modelos podem falhar em tarefas matemáticas básicas devido à incapacidade de entender a relação entre números.

    Soluções em Potencial:

    Modelos de IA generativa: Tokens, limitações e soluções em potencial
    Dall-E 3
    • Modelos sem tokenização ou híbridos: Modelos como o MambaByte processam texto bruto, sem tokenização, mas ainda estão em desenvolvimento inicial.
    • Novas arquiteturas: Novas arquiteturas de IA podem ser necessárias para superar as limitações da tokenização, permitindo que os modelos processem texto de forma mais natural e eficiente.

    A tokenização é um obstáculo significativo para o avanço da IA Generativa. Pesquisas para soluções alternativas, como modelos sem tokenização ou novas arquiteturas, estão em andamento. O futuro da IA Generativa dependerá da capacidade de superar essas limitações e desenvolver modelos mais robustos, precisos e equitativos.

  • Audi pretende integrar inteligência artificial em modelos de 2021 em diante para facilitar a vida do motorista

    Audi pretende integrar inteligência artificial em modelos de 2021 em diante para facilitar a vida do motorista

    “Ei Audi, preciso calibrar os pneus?” Prepare-se para ter uma conversa com o seu carro! A Audi anunciou recentemente que integrará o ChatGPT, inteligência artificial capaz de diálogo natural, em dois milhões de veículos fabricados a partir de 2021. Isso mesmo, você poderá controlar por voz o ar-condicionado, sistema de entretenimento e navegação do seu Audi sem precisar tirar os olhos da estrada, o que convenientemente melhora a segurança.

    A iniciativa demonstra a aposta da montadora alemã em novas tecnologias. A integração do ChatGPT vai além dos modelos futuros, já que a empresa oferecerá a atualização para carros equipados com o MIB 3, a terceira geração do sistema de entretenimento utilizado pela marca. Através do serviço Microsoft Azure OpenAI, o ChatGPT estará disponível para modelos já existentes. Nos carros mais novos, que possuem a arquitetura eletrônica E3 1.2, a exemplo do Q6 e-tron, a plataforma escolhida será a Cerence Chat Pro.

    E quando que essas novidades chegam aos Audi?

    Estas alterações devem entrar em vigor a partir de julho, a novidade permitirá que os motoristas interajam com o veículo de forma natural, bastando falar com o carro. Além de controlar as funções básicas, o ChatGPT também responderá a perguntas gerais de conhecimento, tornando a experiência de dirigir mais segura, já que o motorista não precisará tirar os olhos da estrada para manusear os comandos. Para ativar a inteligência artificial, basta pressionar o botão no volante ou dizer “Ei, Audi”.

    “Este é o próximo passo para oferecer a melhor experiência a bordo em veículos Audi”, afirma Marcus Keith, vice-presidente de desenvolvimento de interior, entretenimento e conectividade da Audi.

    A aposta em inteligência artificial não se limita ao conforto do motorista. A Audi planeja “explorar totalmente o potencial da tecnologia” também na fase de produção. Além de permitir perguntas como “está na hora de calibrar os pneus?”, o sistema auxiliará no controle de qualidade das fábricas, identificando pontos de solda e fissuras na carroceria.

    Preocupado com a privacidade dos usuários, a Audi garante que a segurança dos dados é prioridade. Todas as perguntas e respostas serão excluídas após o processamento, e o ChatGPT jamais terá acesso a dados do veículo. A montadora afirma estar em conformidade com a Lei de Dados da UE e a Lei de Inteligência Artificial, e investe na capacitação de seus funcionários para lidar com o futuro da fabricação automobilística.

  • Hackers miram em empresas de inteligência artificial para furto de dados

    Hackers miram em empresas de inteligência artificial para furto de dados

    Não precisa se preocupar se suas conversas secretas com o ChatGPT vazaram no recente ataque aos sistemas da OpenAI. O hack em si, embora preocupante, parece ter sido superficial, mas serve como um lembrete de que as empresas de IA se tornaram, em pouco tempo, alvos tentadores para hackers.

    O jornal The New York Times relatou o ataque com mais detalhes, após o ex-funcionário da OpenAI, Leopold Aschenbrenner, ter dado a entender em um podcast recentemente. Ele o chamou de “grande incidente de segurança”, mas fontes não identificadas da empresa disseram ao Times que o hacker só conseguiu acessar um fórum de discussão de funcionários. (O repórter tentou contatar a OpenAI para confirmação e comentário.)

    Nenhuma violação de segurança deve ser tratada como trivial, e espionar conversas internas sobre desenvolvimento de IA certamente tem valor. Mas está longe de ser um hacker obtendo acesso a sistemas internos, modelos em progresso, roteiros secretos e assim por diante.

    No entanto, isso deveria nos assustar de qualquer maneira, e não necessariamente por causa da ameaça da China ou de outros países nos superando na corrida armamentista da IA. O simples fato é que essas empresas de IA se tornaram guardiãs de uma enorme quantidade de dados valiosos.

    O que os hackers buscam

    Vamos falar sobre três tipos de dados que a OpenAI e, em menor medida, outras empresas de IA criaram ou têm acesso: dados de treinamento de alta qualidade, interações em massa com usuários e dados de clientes.

    É incerto quais dados de treinamento eles possuem exatamente, porque as empresas são extremamente sigilosas sobre seus tesouros. Mas é um erro pensar que eles são apenas grandes pilhas de dados da web coletados automaticamente. Sim, eles usam coletores da web ou conjuntos de dados como o Pile, mas é uma tarefa gigantesca moldar esses dados brutos em algo que possa ser usado para treinar um modelo como o GPT-4. Um grande número de horas de trabalho humano é necessário para fazer isso – só pode ser parcialmente automatizado.

    Alguns engenheiros de aprendizado de máquina especulam que, de todos os fatores que influenciam a criação de um modelo de linguagem grande (ou talvez qualquer sistema baseado em transformadores), o mais importante é a qualidade do conjunto de dados. É por isso que um modelo treinado no Twitter e no Reddit nunca será tão eloquente quanto um treinado em todas as obras publicadas do século passado. (E provavelmente por que a OpenAI supostamente usou fontes legalmente questionáveis, como livros protegidos por direitos autorais, em seus dados de treinamento, uma prática que eles afirmam ter abandonado.)

    Portanto, os conjuntos de dados de treinamento que a OpenAI construiu são de enorme valor para os concorrentes, desde outras empresas a estados adversários e reguladores aqui nos Estados Unidos. As autoridades não gostariam de saber exatamente quais dados estão sendo usados e se a OpenAI tem sido honesta sobre isso?

    Mas talvez ainda mais valiosa seja a enorme quantidade de dados de usuários da OpenAI – provavelmente bilhões de conversas com o ChatGPT sobre centenas de milhares de tópicos. Assim como os dados de pesquisa já foram a chave para entender a mente coletiva da web, o ChatGPT está na cola da pulsação de uma população que pode não ser tão ampla quanto o universo de usuários do Google, mas fornece muito mais profundidade. (Caso você não saiba, a menos que desative a opção, suas conversas estão sendo usadas para dados de treinamento.)

    Desde compras até dados pessoais

    No caso do Google, um aumento nas pesquisas por “ar-condicionados” indica que o mercado está esquentando um pouco. Mas esses usuários não conversam sobre o que querem, quanto estão dispostos a gastar, como é a casa deles, fabricantes que querem evitar e assim por diante. Você sabe que isso é valioso porque o próprio Google está tentando converter seus usuários para fornecer essas mesmas informações, substituindo as pesquisas por interações com IA!

    Imagine quantas conversas as pessoas tiveram com o ChatGPT e quão útil essa informação é, não apenas para desenvolvedores de IAs, mas para equipes de marketing, consultores, analistas… é uma mina de ouro.

    A última categoria de dados talvez seja a de maior valor no mercado aberto: como os clientes estão realmente usando a IA e os dados que eles próprios forneceram aos modelos.

    Centenas de grandes empresas e incontáveis empresas menores usam ferramentas como as APIs da OpenAI e da Anthropic para uma variedade igualmente grande de tarefas. E para que um modelo de linguagem seja útil para elas, geralmente ele precisa ser ajustado ou ter acesso a seus próprios bancos de dados internos.

    Isso pode ser algo prosaico como planilhas de orçamento antigas, registros de pessoas (para torná-las mais fáceis de pesquisar, por exemplo) ou tão valioso quanto.