浙江大學和阿里巴巴達摩院聯合推出了一項突破性研究:利用教學影片建立高品質多模態教科書資料集。這項研究旨在解決現有大型語言模型(VLMs)預訓練資料知識密度低、圖文關聯性弱的問題,為VLMs提供更優質的訓練素材,並革新教育資源的利用方式。研究團隊收集並處理了海量教學視頻,最終構建了一個涵蓋多個學科、總時長超過22000小時的高品質數據集,為人工智慧在教育領域的應用提供了新的可能性。
近日,浙江大學與阿里巴巴達摩院聯合發布了一項引人注目的研究,旨在透過教學影片創建高品質的多模態教科書。這項創新的研究成果不僅為大規模語言模式(VLMs)的訓練提供了新的思路,也可能改變教育資源的運用方式。
隨著人工智慧技術的快速發展,VLMs 的預訓練語料主要依賴圖文對資料與圖文交織語料。然而,目前的這些數據多來自網頁,文字與圖像的關聯性較弱,知識密度也相對較低,無法有效支援複雜的視覺推理。

為了應對這項挑戰,研究團隊決定從網路上海量的教學影片中提煉高品質的知識語料。他們收集了超過15.9萬個教學視頻,經過精細的過濾和處理,最終保留了75,000個高質量視頻,涵蓋數學、物理、化學等多個學科,總時長超過22,000小時。
研究者設計了一條複雜的「視訊到教科書」 處理管道。首先,使用自動語音辨識(ASR)技術將影片中的講解內容轉錄為文本,接著透過圖像分析和文字匹配,篩選出與知識點高度相關的片段。最終,這些處理過的關鍵影格、OCR 文本和轉錄文本被交錯組織,形成了一個內容豐富、結構嚴謹的多模態教科書。

這項研究的初步結果顯示,與以往的網頁中心資料集相比,新生成的教科書資料集在知識密度和圖像關聯性上顯著提升,為VLMs 的學習提供了更為堅實的基礎。此外,研究也引起了學術界的廣泛關注,相關資料集在Hugging Face 平台上迅速攀升至熱門榜單,短短兩週內下載量便超過7000次。
透過這項創新的嘗試,研究者們希望不僅能推動VLMs 的發展,更能在教育資源的整合與應用上開啟新的可能性。
論文網址:https://arxiv.org/pdf/2501.00958
這項研究成果不僅對人工智慧領域具有重要意義,也為未來的教育模式改革提供了新的方向,預示著人工智慧技術在教育領域的廣泛應用前景。此資料集的開源也為全球研究者提供了寶貴的資源,促進了學術界的合作與交流。