微軟研究團隊發布了新型人工智慧技術——大型行動模型(LAM),它能夠自主操作Windows程序,標誌著AI從單純的對話和建議走向了實際任務執行的新階段。有別於傳統的語言模型,LAM可以理解文字、語音和影像等多種輸入,並將其轉化為詳細的行動計劃,甚至能夠根據即時情況調整策略,解決一些其他AI系統無法應對的問題。這項突破性的技術為AI在實際應用上提供了更廣闊的可能性,也為未來人工智慧助理的發展指明了方向。
正微軟的研究團隊近日推出了一種被稱為「大型行動模式」(Large Action Model,簡稱LAM)的人工智慧技術,標誌著AI 的發展迎來了新的階段。與傳統的語言模型如GPT-4o 不同,LAM 能夠自主操作Windows 程序,這意味著AI 不僅僅能對話或提供建議,而是能真實地執行任務。

LAM 的優勢在於其能夠理解用戶的各種輸入,包括文字、語音和圖像,然後將這些請求轉化為詳細的步驟計劃。 LAM 不僅能製定計劃,還能根據即時情況調整其行動策略。建構LAM 的過程主要分為四個步驟:首先,模型學習將任務分解為邏輯步驟;接著,透過更先進的AI 系統(如GPT-4o)學習如何將這些計劃轉化為具體行動;然後,LAM 會獨立探索新的解決方案,甚至解決其他AI 系統無法應對的問題;最後,透過獎勵機制進行微調訓練。
在實驗中,研究團隊以Mistral-7B 為基礎建立了一個LAM 模型,並在Word 測試環境中進行測試。結果顯示,該模型成功完成任務的機率為71%,相較之下,GPT-4o 在無視覺資訊的情況下的成功率為63%。
此外,LAM 在任務執行速度上也表現優異,每個任務僅需30秒,而GPT-4o 則需要86秒。雖然在處理視覺訊息時,GPT-4o 的成功率提高至75.5%,但整體來看,LAM 在速度和效果上都有顯著優勢。
為了建立訓練數據,研究團隊最初收集了29,000對任務和計劃的範例,這些數據來自微軟文件、wikiHow 文章和必應搜尋。之後,他們利用GPT-4o 將簡單任務轉化為複雜任務,從而將資料集擴展到76,000對,增加了150%。最終,約2,000個成功的行動序列被納入到最終的訓練集中。

儘管LAM 展示了其在AI 發展中的潛力,研究團隊仍面臨一些挑戰,例如AI 行動可能出錯的問題、監管的相關問題,以及在不同應用中擴展和適應的技術限制。不過,研究人員相信,LAM 代表了AI 發展的重要轉變,預示著人工智慧助理將能更積極地協助人類完成實際任務。
劃重點:
LAM 能夠自主執行Windows 程序,突破傳統AI 只會對話的限制。
⏱ 在Word 測驗中,LAM 成功完成任務的機率達到71%,比GPT-4o 的63% 更高,且執行速度更快。
研究團隊透過資料擴展策略,將任務計畫對的數量增加到76,000對,進一步提升了模型的訓練效果。
LAM 的出現預示著人工智慧將從資訊提供者轉變為實際行動的執行者,為未來的人機互動和自動化辦公室帶來了革命性的變化。雖然仍面臨挑戰,但LAM 的潛力巨大,值得期待其在各領域的廣泛應用和進一步發展。