L'Université du Zhejiang et l'Alibaba Damo Academy ont lancé conjointement une recherche révolutionnaire : utiliser des vidéos pédagogiques pour créer un ensemble de données de manuels scolaires multimodaux de haute qualité. Cette recherche vise à résoudre les problèmes de faible densité de connaissances et de faible corrélation image-texte des données de pré-formation des modèles linguistiques à grande échelle (VLM) existants, à fournir de meilleurs matériels de formation pour les VLM et à innover dans l'utilisation des ressources pédagogiques. L’équipe de recherche a collecté et traité d’énormes vidéos pédagogiques et a finalement construit un ensemble de données de haute qualité couvrant plusieurs disciplines d’une durée totale de plus de 22 000 heures, offrant ainsi de nouvelles possibilités pour l’application de l’intelligence artificielle dans le domaine de l’éducation.
Récemment, l'Université du Zhejiang et l'Alibaba Damo Academy ont publié conjointement une recherche accrocheuse visant à créer des manuels multimodaux de haute qualité grâce à des vidéos pédagogiques. Ce résultat de recherche innovant fournit non seulement de nouvelles idées pour la formation de modèles linguistiques à grande échelle (VLM), mais pourrait également changer la manière dont les ressources éducatives sont utilisées.
Avec le développement rapide de la technologie de l'intelligence artificielle, le corpus de pré-formation des VLM repose principalement sur des données image-texte et des corpus entrelacés image-texte. Cependant, la plupart des données actuelles proviennent de pages Web, la corrélation entre le texte et les images est faible et la densité des connaissances est relativement faible, ce qui les rend incapables de prendre en charge efficacement un raisonnement visuel complexe.

Afin de relever ce défi, l’équipe de recherche a décidé d’extraire un corpus de connaissances de haute qualité à partir du grand nombre de vidéos pédagogiques disponibles sur Internet. Ils ont collecté plus de 159 000 vidéos pédagogiques et, après un filtrage et un traitement minutieux, ont finalement retenu 75 000 vidéos de haute qualité, couvrant plusieurs sujets tels que les mathématiques, la physique, la chimie, etc., d'une durée totale de plus de 22 000 heures.
Les chercheurs ont conçu un pipeline complexe de traitement « vidéo vers manuel ». Tout d’abord, la technologie de reconnaissance vocale automatique (ASR) est utilisée pour transcrire le contenu explicatif de la vidéo en texte, puis, grâce à l’analyse d’images et à la correspondance de texte, les clips très pertinents par rapport aux points de connaissance sont filtrés. Enfin, ces images clés traitées, le texte OCR et le texte transcrit sont entrelacés et organisés pour former un manuel multimodal au contenu riche et à la structure rigoureuse.

Les résultats préliminaires de cette étude montrent que par rapport aux précédents ensembles de données centrés sur le Web, l'ensemble de données de manuels nouvellement généré a considérablement amélioré la densité des connaissances et la corrélation des images, fournissant ainsi une base plus solide pour l'apprentissage des VLM. En outre, la recherche a attiré l’attention de la communauté universitaire et les ensembles de données pertinents se sont rapidement hissés en tête de liste des plus populaires sur la plateforme Hugging Face, avec plus de 7 000 téléchargements en seulement deux semaines.
Grâce à cette tentative innovante, les chercheurs espèrent non seulement promouvoir le développement des VLM, mais également ouvrir de nouvelles possibilités dans l'intégration et l'application des ressources éducatives.
Adresse papier : https://arxiv.org/pdf/2501.00958
Ce résultat de recherche est non seulement d'une grande importance pour le domaine de l'intelligence artificielle, mais fournit également une nouvelle direction pour la future réforme du modèle éducatif, indiquant les vastes perspectives d'application de la technologie de l'intelligence artificielle dans le domaine de l'éducation. La source ouverte de cet ensemble de données fournit également des ressources précieuses aux chercheurs du monde entier et favorise la coopération et les échanges au sein de la communauté universitaire.