No campo da inteligência artificial (AI), embora os grandes modelos de idiomas (LLMs) tenham um bom desempenho no processamento de linguagem natural, eles geralmente parecem inescrupulosos ao enfrentar tarefas complexas de inferência. Essas tarefas geralmente envolvem raciocínio em várias etapas, conhecimento específico do domínio ou integração eficaz de ferramentas externas. Para superar essas limitações, os pesquisadores estão explorando como aprimorar os recursos da LLM através do uso de ferramentas externas.
Os métodos tradicionais de aprimoramento geralmente requerem ajuste fino ou treinamento adicional do modelo, o que leva a suas limitações na adaptabilidade e flexibilidade de tarefas. As estruturas existentes tendem a confiar em ferramentas estáticas e predefinidas, não possuem mecanismos de seleção e planejamento de ferramentas eficientes, que podem causar facilmente erros ao executar tarefas, aumentar os custos computacionais e ter um desempenho inferior quando aplicados a novos campos.
Para resolver esse problema, a equipe de pesquisa da Universidade de Stanford lançou o Ototools, uma nova estrutura projetada para aprimorar os recursos de inferência da IA por meio de ferramentas externas dinâmicas e estruturadas. OCTOTOOLS é uma estrutura modular, sem treinamento e escalável que padroniza como os modelos de IA interagem com as ferramentas externas. Ao contrário das estruturas anteriores que exigiam configurações de ferramentas predefinidas, o Ototools introduziu "cartões de ferramentas" que encapsulam as funções e os metadados da ferramenta, permitindo que os modelos de IA integrem e usem as ferramentas com mais eficiência.
O processo de operação do Ototools é dividido em três estágios -chave: planejamento, execução e verificação. Primeiro, o planejador analisa as consultas do usuário e determina as ferramentas necessárias com base nos metadados na placa de ferramenta. O executor converte decisões de alto nível em comandos executáveis e os executa sequencialmente para garantir que os resultados intermediários sejam processados corretamente. Finalmente, o validador avalia a consistência da saída, garantindo que corresponda à consulta original, reduzindo assim erros.
A equipe de pesquisa realizou extensas avaliações de Ototools em vários campos, incluindo visão, raciocínio matemático, análise científica e aplicações médicas. Os resultados mostram que o Ototools é significativamente melhor que a estrutura de IA existente no desempenho, especialmente em tarefas de raciocínio matemático, com um aumento de precisão de 22,5%. Em aplicações médicas, o Ototools alcançou um aumento de precisão de 20,7%, demonstrando sua eficácia no diagnóstico assistido por AI do mundo real.
Ototools não requer treinamento adicional, melhorando significativamente a precisão da inferência de IA, com um aumento médio de 9,3%. A estrutura suporta até 16 tarefas de inferência, incluindo análise visual, operações matemáticas, raciocínio médico, etc. O sistema de cartões de ferramentas da Ototools simplifica a integração da ferramenta, otimiza o processo de tomada de decisão e melhora a eficiência da execução.
Github: https://github.com/octotools/octotools