A empresa xAI abriu o código-fonte de seu modelo especialista híbrido de 314 bilhões de parâmetros, Grok-1, que atraiu ampla atenção no campo da inteligência artificial. Os pesos e a arquitetura de rede do modelo são completamente abertos e são treinados do zero com base em uma grande quantidade de dados de texto, sem ajuste fino específico do aplicativo. O peso de ativação é de 25%. A biblioteca JAX e a linguagem Rust são usadas para treinamento personalizado e estão em conformidade com a licença Apache2.0, que é conveniente para uso dos desenvolvedores e desenvolvimento secundário. O código aberto do modelo fornece aos pesquisadores valiosos recursos de aprendizagem e pesquisa, e também promove um maior desenvolvimento no campo da inteligência artificial. Embora alguns investigadores acreditem que a sua abertura precisa de ser melhorada, o lançamento do Grok-1 é sem dúvida um grande progresso no campo da inteligência artificial.
A empresa xAI de Musk anunciou que abrirá o código-fonte do modelo especialista híbrido de 314 bilhões de parâmetros “Grok-1” com pesos e arquitetura de rede totalmente abertos. O modelo é treinado do zero, sem ajuste específico do aplicativo. Ele é treinado com base em uma grande quantidade de dados de texto. O peso de ativação do modelo MoE é de 25%. Ele usa a biblioteca JAX e a linguagem Rust para personalizar a pilha de treinamento e está em conformidade com a licença Apache2.0, e sua popularidade continua a aumentar. O repositório do modelo fornece código de amostra JAX, que requer grande memória de GPU, e fornece um link magnético para baixar o arquivo de peso. Os pesquisadores avaliaram o Grok-1 como menos aberto e mais preditivo do que o LLaMA-2, forneceram detalhes da arquitetura do modelo e pediram mais detalhes públicos.
O código aberto do Grok-1, embora haja alguma controvérsia em termos de abertura, seu poderoso desempenho e licença aberta fazem dele um modelo digno de atenção e espera-se que promova o desenvolvimento do campo de grandes modelos de linguagem. No futuro, esperamos que surjam mais projetos de código aberto semelhantes para promover conjuntamente o avanço da tecnologia de inteligência artificial. A aquisição e utilização do modelo requerem um certo limiar técnico, mas isso não impede a sua contribuição para a investigação em inteligência artificial.