大模型新突破：從教學影片中提煉高品質多模態教科書- AI文章

作者：Eve Cole 更新時間：2025-01-28 12:16:02

浙江大學和阿里巴巴達摩院聯合推出了一項突破性研究：利用教學影片建立高品質多模態教科書資料集。這項研究旨在解決現有大型語言模型（VLMs）預訓練資料知識密度低、圖文關聯性弱的問題，為VLMs提供更優質的訓練素材，並革新教育資源的利用方式。研究團隊收集並處理了海量教學視頻，最終構建了一個涵蓋多個學科、總時長超過22000小時的高品質數據集，為人工智慧在教育領域的應用提供了新的可能性。

近日，浙江大學與阿里巴巴達摩院聯合發布了一項引人注目的研究，旨在透過教學影片創建高品質的多模態教科書。這項創新的研究成果不僅為大規模語言模式（VLMs）的訓練提供了新的思路，也可能改變教育資源的運用方式。

隨著人工智慧技術的快速發展，VLMs 的預訓練語料主要依賴圖文對資料與圖文交織語料。然而，目前的這些數據多來自網頁，文字與圖像的關聯性較弱，知識密度也相對較低，無法有效支援複雜的視覺推理。

為了應對這項挑戰，研究團隊決定從網路上海量的教學影片中提煉高品質的知識語料。他們收集了超過15.9萬個教學視頻，經過精細的過濾和處理，最終保留了75，000個高質量視頻，涵蓋數學、物理、化學等多個學科，總時長超過22，000小時。

研究者設計了一條複雜的「視訊到教科書」處理管道。首先，使用自動語音辨識（ASR）技術將影片中的講解內容轉錄為文本，接著透過圖像分析和文字匹配，篩選出與知識點高度相關的片段。最終，這些處理過的關鍵影格、OCR 文本和轉錄文本被交錯組織，形成了一個內容豐富、結構嚴謹的多模態教科書。

這項研究的初步結果顯示，與以往的網頁中心資料集相比，新生成的教科書資料集在知識密度和圖像關聯性上顯著提升，為VLMs 的學習提供了更為堅實的基礎。此外，研究也引起了學術界的廣泛關注，相關資料集在Hugging Face 平台上迅速攀升至熱門榜單，短短兩週內下載量便超過7000次。

透過這項創新的嘗試，研究者們希望不僅能推動VLMs 的發展，更能在教育資源的整合與應用上開啟新的可能性。

論文網址：https://arxiv.org/pdf/2501.00958

這項研究成果不僅對人工智慧領域具有重要意義，也為未來的教育模式改革提供了新的方向，預示著人工智慧技術在教育領域的廣泛應用前景。此資料集的開源也為全球研究者提供了寶貴的資源，促進了學術界的合作與交流。