火山引擎在2024年12月18日的FORCE原動力大會上,重磅發布了豆包大模型家族的全面升級,其中最引人注目的是全新視覺理解模型的推出。此模型支援文字和圖像同時輸入,具備更強的識別、理解和推理能力,並以極具競爭力的價格為用戶提供服務。此次升級不僅提升了豆包大模型在各領域的應用能力,也標誌著視覺理解技術進入了新的發展階段,為企業和開發者帶來了更便利、高效的AI解決方案。
在2024年12月18日的火山引擎FORCE 原動力大會上,火山引擎宣布對豆包大模型家族進行全面升級,並重磅發布了全新的視覺理解模型。

火山引擎總裁譚待表示,豆包大模型的日均tokens 使用量在過去幾個月中迅猛增長,達到了超過4萬億,相較於5月發佈時增長了33倍。這一成長趨勢顯示出豆包大模型在多個應用情境中的廣泛使用。

本次,火山引擎透過推出視覺理解模型,使得使用者能夠同時輸入文字和圖像的問題,模型能夠綜合理解並給出準確的答案。這項創新將大大簡化應用的開發流程,並激活大模型在更多場景下的潛力。
視覺理解模型具備更強的內容辨識能力,不僅可以辨識出影像中的物體類別、形狀等基本要素,也能理解物體之間的關係、空間佈局以及場景的整體意義。例如辨識影子、辨識自然知識等。

視覺理解模型具備更強的理解和推理能力,不僅能更好地識別內容,還能根據所識別的文字和圖像資訊進行複雜的邏輯計算,例如:圖表推理、物理推理。

另外,也擁有更細膩的視覺描述能力,可以基於圖像訊息,更細膩地描述圖像呈現的內容,還能進行多種文體的創作,例如圖像創作、圖像詩歌創作等。

豆包視覺理解模式在教育、旅遊和電商等多個領域展現出廣泛的應用前景。例如,在教育方面,模型可以幫助學生優化作文和科普知識;在旅遊方面,模型能為遊客提供外文菜單的翻譯和建築背景知識的講解;在電商營銷中,它可以幫助商家詳細描述商品特性,從而提高廣告效果。
視覺理解模式的使用成本也十分親民,每千tokens 的價格為0.003元,較業界平均價格降低了85%。這個價格水準使得每一塊錢可以處理多達284張720P 的圖片,標誌著視覺理解技術進入了「厘時代」。此外,火山引擎也為企業和開發者提供了高達15,000次的初始流量支持,幫助他們更好地利用這項技術。

在此次大會上,火山引擎不僅發布了視覺理解模型,還對其他多個模型進行了升級。豆包通用模型pro 的綜合任務處理能力較5月提升了32%,而在推理、指令遵循、程式碼和數學等領域也分別有顯著提升。同時,豆包・影片產生模型將於2025年1月對外開放服務,企業可預約使用。


為了提升企業的資訊取得和搜尋推薦能力,火山引擎也推出了全域AI 搜尋服務,幫助企業更好地連結資訊和使用者需求,協助各產業的智慧轉型。
劃重點:
豆包大模型的日均tokens 使用量達4萬億,較5月增加33倍。
新推出的視覺理解模型支援文字與圖像同時輸入,適用於教育、旅遊和電商等領域。
每千tokens 的使用成本僅為0.003元,顯著低於行業平均價格。
總之,火山引擎此次發表的豆包大模型升級及全新視覺理解模型,展現了其在人工智慧領域的持續創新和對用戶需求的深刻理解,為各行業智能化轉型提供了強有力的技術支撐。