豆包大模型家族全面升級，重磅推出視覺理解模型、音樂4.0模型

作者：Eve Cole 更新時間：2024-12-25 13:00:02

火山引擎在2024年12月18日的FORCE原動力大會上，重磅發布了豆包大模型家族的全面升級，其中最引人注目的是全新視覺理解模型的推出。此模型支援文字和圖像同時輸入，具備更強的識別、理解和推理能力，並以極具競爭力的價格為用戶提供服務。此次升級不僅提升了豆包大模型在各領域的應用能力，也標誌著視覺理解技術進入了新的發展階段，為企業和開發者帶來了更便利、高效的AI解決方案。

在2024年12月18日的火山引擎FORCE 原動力大會上，火山引擎宣布對豆包大模型家族進行全面升級，並重磅發布了全新的視覺理解模型。

火山引擎總裁譚待表示，豆包大模型的日均tokens 使用量在過去幾個月中迅猛增長，達到了超過4萬億，相較於5月發佈時增長了33倍。這一成長趨勢顯示出豆包大模型在多個應用情境中的廣泛使用。

本次，火山引擎透過推出視覺理解模型，使得使用者能夠同時輸入文字和圖像的問題，模型能夠綜合理解並給出準確的答案。這項創新將大大簡化應用的開發流程，並激活大模型在更多場景下的潛力。

視覺理解模型具備更強的內容辨識能力，不僅可以辨識出影像中的物體類別、形狀等基本要素，也能理解物體之間的關係、空間佈局以及場景的整體意義。例如辨識影子、辨識自然知識等。

視覺理解模型具備更強的理解和推理能力，不僅能更好地識別內容，還能根據所識別的文字和圖像資訊進行複雜的邏輯計算，例如:圖表推理、物理推理。

另外，也擁有更細膩的視覺描述能力，可以基於圖像訊息，更細膩地描述圖像呈現的內容，還能進行多種文體的創作，例如圖像創作、圖像詩歌創作等。

豆包視覺理解模式在教育、旅遊和電商等多個領域展現出廣泛的應用前景。例如，在教育方面，模型可以幫助學生優化作文和科普知識;在旅遊方面，模型能為遊客提供外文菜單的翻譯和建築背景知識的講解;在電商營銷中，它可以幫助商家詳細描述商品特性，從而提高廣告效果。

視覺理解模式的使用成本也十分親民，每千tokens 的價格為0.003元，較業界平均價格降低了85%。這個價格水準使得每一塊錢可以處理多達284張720P 的圖片，標誌著視覺理解技術進入了「厘時代」。此外，火山引擎也為企業和開發者提供了高達15，000次的初始流量支持，幫助他們更好地利用這項技術。

在此次大會上，火山引擎不僅發布了視覺理解模型，還對其他多個模型進行了升級。豆包通用模型pro 的綜合任務處理能力較5月提升了32%，而在推理、指令遵循、程式碼和數學等領域也分別有顯著提升。同時，豆包・影片產生模型將於2025年1月對外開放服務，企業可預約使用。

為了提升企業的資訊取得和搜尋推薦能力，火山引擎也推出了全域AI 搜尋服務，幫助企業更好地連結資訊和使用者需求，協助各產業的智慧轉型。

劃重點:

豆包大模型的日均tokens 使用量達4萬億，較5月增加33倍。

新推出的視覺理解模型支援文字與圖像同時輸入，適用於教育、旅遊和電商等領域。

每千tokens 的使用成本僅為0.003元，顯著低於行業平均價格。

總之，火山引擎此次發表的豆包大模型升級及全新視覺理解模型，展現了其在人工智慧領域的持續創新和對用戶需求的深刻理解，為各行業智能化轉型提供了強有力的技術支撐。