O último relatório divulgado pela Epochai indica que os conjuntos de dados públicos de treinamento de texto de alta qualidade do mundo serão esgotados por grandes modelos de linguagem nos próximos anos. O relatório prevê que entre 2026 e 2032, os dados existentes de cerca de 300 trilhões de tokens serão consumidos, e o "excesso de treinamento" do modelo acelerou esse processo. A versão Llama3 8B do Meta sofre overtraining impressionantes 100 vezes. Se todos os modelos adotarem essa abordagem, os dados poderão se esgotar em 2025. Enfrentando a próxima “escassez de dados”, a Epochai propôs quatro soluções potenciais, proporcionando uma nova direção para a aquisição de dados no campo da inteligência artificial.

Os pesquisadores apontaram especificamente que o “overtraining” é o principal culpado pela aceleração do consumo de dados de treinamento. Por exemplo, o Llama3 de código aberto mais recente do Meta, versão 8B, tem um overtraining surpreendente de 100 vezes. Se todos os modelos se comportarem assim, nossos dados poderão ter que dizer adeus em 2025!

Mas não se preocupe, ainda temos um caminho. A Epoch AI fornece quatro novos métodos para obter dados de treinamento, fazendo com que a “escassez de dados” no mundo da IA não seja mais um pesadelo.
1) Dados sintéticos: assim como uma refeição preparada com um kit de cozinha, os dados sintéticos usam aprendizado profundo para simular dados reais e gerar novos dados. Mas não fique muito entusiasmado tão cedo; a qualidade dos dados sintéticos pode ser irregular, propensa a ajustes excessivos e não ter as características linguísticas diferenciadas do texto real.
2) Aprendizagem de dados multimodais e entre domínios: Este método não se limita a texto, mas também inclui imagens, vídeos, áudio e outros tipos de dados. Assim como no KTV, você pode não apenas cantar, dançar, mas também atuar. O aprendizado multimodal permite que o modelo compreenda e lide com tarefas complexas de forma mais abrangente.
3) Dados privados: Atualmente, a quantidade total de dados de texto privados no mundo é de cerca de 3.100 trilhões de tokens, o que é mais de 10 vezes maior que os dados públicos. Mas você deve ter cuidado ao usar dados privados! segurança são coisas grandes. Além disso, o processo de obtenção e integração de dados não públicos pode ser complexo.
4) Aprendizagem interativa em tempo real com o mundo real: Deixe o modelo aprender e melhorar por meio da interação direta com o mundo real. Esta abordagem exige que os modelos sejam autónomos e adaptáveis, capazes de compreender com precisão as instruções do utilizador e de executar ações no mundo real.
Cada um dos quatro métodos propostos pela Epochai tem suas próprias vantagens e desvantagens e enfrenta desafios diferentes. No futuro, a forma de resolver eficazmente os problemas de dados afetará diretamente o desenvolvimento e a aplicação da tecnologia de inteligência artificial. Isto exige que os investigadores científicos e a indústria trabalhem em conjunto para explorar formas mais eficazes de obter e utilizar dados para garantir o desenvolvimento sustentável e saudável da inteligência artificial.