Di bidang kecerdasan buatan (AI), meskipun model bahasa besar (LLM) berkinerja baik dalam pemrosesan bahasa alami, mereka sering tampak tidak bermoral ketika menghadapi tugas inferensi yang kompleks. Tugas-tugas ini sering melibatkan penalaran multi-langkah, pengetahuan khusus domain, atau integrasi alat eksternal yang efektif. Untuk mengatasi keterbatasan ini, para peneliti telah mengeksplorasi cara meningkatkan kemampuan LLM melalui penggunaan alat eksternal.
Metode peningkatan tradisional seringkali membutuhkan penyesuaian atau pelatihan tambahan model, yang mengarah pada keterbatasannya dalam kemampuan beradaptasi dan fleksibilitas tugas. Kerangka kerja yang ada cenderung mengandalkan peralatan statis yang telah ditentukan sebelumnya, tidak memiliki mekanisme pemilihan alat dan perencanaan yang efisien, yang dapat dengan mudah menyebabkan kesalahan saat melakukan tugas, meningkatkan biaya komputasi, dan berkinerja buruk ketika diterapkan pada bidang baru.
Untuk mengatasi masalah ini, tim peneliti di Stanford University meluncurkan Octotools, kerangka kerja baru yang dirancang untuk meningkatkan kemampuan inferensi AI melalui alat eksternal yang dinamis dan terstruktur. Octotools adalah kerangka kerja modular, bebas pelatihan, dan dapat diskalakan yang menstandarkan bagaimana model AI berinteraksi dengan alat eksternal. Tidak seperti kerangka kerja sebelumnya yang membutuhkan konfigurasi alat yang telah ditentukan, Octotools memperkenalkan "kartu alat" yang merangkum fungsi dan metadata alat, yang memungkinkan model AI untuk mengintegrasikan dan menggunakan alat lebih efisien.
Proses operasi octotools dibagi menjadi tiga tahap utama: perencanaan, eksekusi dan verifikasi. Pertama, perencana menganalisis kueri pengguna dan menentukan alat yang diperlukan berdasarkan metadata dalam kartu alat. Pelaksana kemudian mengubah keputusan tingkat tinggi menjadi perintah yang dapat dieksekusi dan menjalankannya secara berurutan untuk memastikan bahwa hasil perantara diproses dengan benar. Akhirnya, validator mengevaluasi konsistensi output, memastikan bahwa ia cocok dengan kueri asli, sehingga mengurangi kesalahan.
Tim peneliti melakukan evaluasi yang luas terhadap octotools di berbagai bidang, termasuk visi, penalaran matematika, analisis ilmiah dan aplikasi medis. Hasilnya menunjukkan bahwa Octotools secara signifikan lebih baik daripada kerangka kerja AI yang ada dalam kinerja, terutama dalam tugas penalaran matematika, dengan peningkatan akurasi 22,5%. Dalam aplikasi medis, Octotools mencapai peningkatan akurasi 20,7%, menunjukkan keefektifannya dalam diagnosis AI-AI-Dunia Nyata.
Octotools tidak memerlukan pelatihan tambahan, secara signifikan meningkatkan keakuratan inferensi AI, dengan peningkatan rata -rata 9,3%. Kerangka kerja ini mendukung hingga 16 tugas inferensi, termasuk analisis visual, operasi matematika, penalaran medis, dll. Sistem kartu alat Octotools 'menyederhanakan integrasi alat, mengoptimalkan proses pengambilan keputusan, dan meningkatkan efisiensi eksekusi.
Github: https://github.com/octotools/octotools