Download neoml - neoml Source Code Download

neoml

C/C++

v2.0.5

Télécharger

Néoml

Neoml est un cadre d'apprentissage automatique de bout en bout qui vous permet de construire, de former et de déployer des modèles ML. Ce cadre est utilisé par les ingénieurs d'Abbyy pour la vision par ordinateur et les tâches de traitement du langage naturel, y compris le prétraitement d'image, la classification, l'analyse de mise en page des documents, l'OCR et l'extraction des données à partir de documents structurés et non structurés.

Caractéristiques clés:

Réseaux de neurones avec un support pour plus de 100 types de couches
Apprentissage automatique traditionnel: 20+ algorithmes (classification, régression, clustering, etc.)
Support CPU et GPU, inférence rapide
Assistance ONNX
Langues: Python, C ++, Java, Objective-C
Multiplateforme: le même code peut être exécuté sur Windows, Linux, MacOS, iOS et Android

Contenu

Construire et installer
- Plates-formes prises en charge
- Tierce personne
- Créer une version C ++ entièrement fonctionnelle
- Construire des versions d'inférence pour Java et Objective-C
Commencer
Description de l'API
- Principes de base
  - Indépendance de la plate-forme
  - Indépendance des moteurs de mathématiques
  - Support multi-threading
  - Assistance ONNX
  - Format de sérialisation
  - Support GPU
  - Fineobj
- Interface C ++
  - Bibliothèque d'algorithmes Neoml
  - Néomathine
- Module python
- Interface java
- Interface objective-C
Licence

Construire et installer

Plates-formes prises en charge

La version complète de la bibliothèque с ++ a été testée sur les plates-formes:

Target OS	Compilateur	Architecture
Windows 7+ (CPU et GPU)	MSVC 2019+	x86, x86_64
Ubuntu 14+ (CPU)	GCC 5.4+	x86_64
MacOS 10.11+ (CPU)	Apple Clang 12+	ARM64, x86_64
iOS 11+ (CPU, GPU)	Apple Clang 12+	ARM64-V8A, x86_64
Android 5.0+ (CPU), Android 7.0+ (GPU)	Clang 7+	armaubi-v7a, arm64-v8a, x86, x86_64

Les versions de la bibliothèque Java et Objective-C inférence ont été testées sur les plates-formes:

Target OS	Compilateur	Architecture
iOS 11+ (CPU, GPU)	Apple Clang 12+	ARM64-V8A, x86_64
Android 5.0+ (CPU), Android 7.0+ (GPU)	Clang 7+	armaubi-v7a, arm64-v8a, x86, x86_64

Tierce personne

La bibliothèque est construite avec CMake (versions recommandées 3.18 et plus tard).

Pour les meilleures performances CPU sur Windows, Linux et MacOS, nous utilisons Intel MKL.

Lors du traitement sur un GPU, vous pouvez éventuellement utiliser CUDA (version 11.2 Upd.1) sur Windows ou Linux et Vulkan (version 1.1.130 et ultérieurement) sur Windows, Linux ou Android.

Nous utilisons également Google Test pour les tests et les tampons de protocole Google pour travailler avec le format du modèle ONNX.

Nous utilisons un générateur très convaincant de JIT Code XBYAK pour accélérer des convolutions sur les processeurs x86_64.

Créer une version C ++ entièrement fonctionnelle

Voir ici pour des instructions sur la création de la version de la bibliothèque C ++ pour différentes plates-formes.

Construire des versions d'inférence pour Java et Objective-C

Voir ici pour des instructions sur la construction des versions Java et Objective-C qui ne feraient que les réseaux de neurones formés.

Commencer

Plusieurs tutoriels avec un exemple de code vous aideront à commencer à travailler avec la bibliothèque:

Former et utiliser un réseau simple
Classification avec augmentation du gradient
Clustering de données avec algorithme K-means

Description de l'API

Principes de base

La bibliothèque a été développée en pensant à ces principes:

Indépendance de la plate-forme

L'interface utilisateur est complètement séparée des calculs de bas niveau mis en œuvre par un moteur mathématique.

La seule chose que vous devez faire est de spécifier au début du type de moteur mathématique qui sera utilisé pour les calculs. Vous pouvez également choisir de sélectionner automatiquement le moteur mathématique, en fonction de la configuration de l'appareil détecté.

Le reste de votre code d'apprentissage automatique sera le même quel que soit le moteur mathématique que vous choisissez.

Indépendance des moteurs de mathématiques

Chaque réseau fonctionne avec une instance de moteur mathématique, et toutes ses couches auraient dû être créées avec le même moteur mathématique. Si vous avez choisi un moteur mathématique GPU, il effectuera tous les calculs. Cela signifie que vous ne pouvez pas choisir d'utiliser un CPU pour les calculs "légers" comme l'ajout de vecteurs et un GPU pour les calculs "lourds" comme la multiplication des matrices. Nous avons introduit cette restriction pour éviter les synchronisations inutiles et l'échange de données entre les appareils.

Support multi-threading

L'interface du moteur mathématique est en file d'attente; La même instance peut être utilisée dans différents réseaux et différents threads.

Notez que cela peut entraîner une surcharge de synchronisation.

Cependant, l'implémentation du réseau neuronal n'est pas en file d'attente; Le réseau ne peut fonctionner que dans un seul thread.

Assistance ONNX

La bibliothèque Neoml fonctionne également avec les modèles créés par d'autres cadres, tant qu'ils prennent en charge le format ONNX. Voir la description de l'API d'importation. Cependant, vous ne pouvez pas exporter un modèle formé au NEOML au format ONNX.

Format de sérialisation

La bibliothèque utilise son propre format binaire (implémenté par CArchive , CArchiveFile ) pour enregistrer et charger les modèles formés.

Support GPU

Le traitement sur GPU aide souvent à améliorer considérablement les performances des opérations mathématiques. La bibliothèque Neoml utilise GPU à la fois pour la formation et l'exécution des modèles. Il s'agit d'un paramètre facultatif et dépend des capacités matérielles et logicielles de votre système.

Pour travailler sur GPU, la bibliothèque nécessite:

Windows: carte GPU NVIDIA® avec CUDA® 11.2 UPD. 1 support.
IOS: Apple GPU A7 +.
Android: appareils avec support Vulkan 1.0.
Linux / MacOS: aucune prise en charge du traitement GPU encore.

Fineobj

La bibliothèque Neoml provient de l'infrastructure interne d'Abbyy. Pour diverses raisons, Abbyy utilise un cadre multiplateforme appelé fineobj. Pour cette raison, la version Open Library utilise certaines de ces primitives de cadre. Voir la description des classes communes.

Interface C ++

Neoml contient deux bibliothèques C ++:

Bibliothèque d'algorithmes Neoml

La bibliothèque fournit des objets C ++ qui implémentent divers algorithmes de haut niveau. Il se compose de plusieurs parties:

Réseaux neuronaux
Algorithmes de classification et de régression
Algorithmes de regroupement
Algorithmes auxiliaires

Néomathine

Le moteur mathématique utilisé pour les calculs est un module séparé qui implémente les fonctions mathématiques de bas niveau utilisées dans la bibliothèque des algorithmes. L'utilisateur peut également appeler ces fonctions mais n'a généralement jamais besoin.

Ce module a différentes implémentations pour différentes plateformes. En particulier, il existe une implémentation qui utilise un GPU pour les calculs.

Le moteur mathématique est également un ensemble d'interfaces C ++ décrites ici.