JioNLP
1.0.0

pip install jionlpJionlp est une boîte à outils pour les développeurs NLP , fournissant des fonctions de prétraitement et d'analyse des tâches NLP, avec un seuil d'utilisation précis, efficace et nul. Veuillez abandonner cette page, vérifier les informations de fonction spécifiques et appuyer sur Ctrl + F pour rechercher. Jionlp Online Edition peut rapidement essayer certaines fonctionnalités. Suivez le compte officiel de WeChat du même nom, Jionlp , et obtenez les dernières ressources d'informations et de données sur l'IA.
norm_score.json et max_score.json à partir des données de test avec le mot de passe jmbo .*.json . $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Trouver de l'aide | aide | Si vous ne savez pas ce que les fonctions Jionlp, vous pouvez taper plusieurs mots clés en fonction des invites de ligne de commande pour rechercher | |
| Analyse du numéro de plaque d'immatriculation | PARSE_MOTOR_VEHICLE_LICENCE_PLAQUE | Compte tenu d'un numéro de plaque d'immatriculation, analysez-le | |
| Analyse sémantique temporelle | parse_time | Étant donné un texte de temps, analysez sa sémantique de temps (horodatage, durée), etc. | |
| Extraction de phrase clé | extrait_keyphrase | Compte tenu d'un texte, extraire ses phrases clés correspondantes | |
| Résumé de texte extrait | extrait_summary | Étant donné un texte, extraire son dictionnaire correspondant | |
| Filtrage des mots d'arrêt | supprimer_stopwords | Étant donné une liste de mots après un texte participé, supprimez-en les mots d'arrêt | |
| Phrase | Split_sence | Punctuate Text | |
| Résolution d'adressage | parse_location | Compte tenu d'une chaîne contenant une adresse domestique, identifiant des informations telles que la province, la ville, le comté, le canton, la rue, le village, etc. | |
| Place du numéro de téléphone, Analyse de l'opérateur | Téléphone_location cell_phone_location Landline_phone_location | Compte tenu d'un numéro de téléphone (numéro de téléphone portable, numéro de ligne fixe), identifiez la province, la ville et l'opérateur. | |
| Reconnaissance du nom du lieu de nouvelles | reconnaître_location | Compte tenu d'un texte d'actualités, identifiez les provinces nationales, les villes, les comtés, les pays étrangers, les villes et autres informations. | |
| Dates de calendrier grégorien | Lunar2 Solar2Lunar | Compte tenu d'une certaine date de calendrier, convertissez-la en calendrier régional | |
| Analyse du numéro de carte d'identité | parse_id_card | Compte tenu d'un numéro d'identification, identifiez la province, la ville, le comté, la date de naissance, Genre, code de vérification et autres informations | |
| Idiome solide | idiom_solitaire | L'idiome est le même que le dernier caractère de l'idiome précédent et le premier caractère de l'idiome suivant (prononciation) | |
| Filtrage de données pornographiques | - | - | |
| Filtrage de données réactionnel | - | - | |
| Chinois traditionnel à simplifier le chinois | tra2sim | Chinois traditionnel à simplifier le chinois , soutenant deux modes de mot | |
| Chinois simplifié en chinois traditionnel | sim2tra | Chinois simplifié en chinois traditionnel, soutenant deux modes de mot | |
| Caractères chinois à pinyin | pinyin | Découvrez le pinyin chinois correspondant au texte chinois et renvoyez les initiales , les finales et le ton | |
| Caractères chinois aux radicaux et aux personnages | char_radiical | Découvrez les informations de structure de caractère chinois correspondant au texte chinois, Y compris les radicaux (bulbe "il"), structure de police ("il" gauche et structure droite), Code de quatre coins ("il" 31120), démontage du caractère chinois ("il" peut-on d'eau), Code Wubi ("rivière" ISKG) | |
| Numéro de montant aux caractères chinois | Money_num2char | Compte tenu d'un montant numérique, retournez le résultat de sa capitalisation de caractère chinois | |
| Nouveau mot découverte | new_word_discovery | Compte tenu d'un fichier texte de corpus, la probabilité élevée d'être un mot |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Répondre à la traduction | Backtranslation | Compte tenu d'un texte, utilisez l'interface de traduction automatique des plates-formes cloud des principaux fabricants. Mettre en œuvre l'amélioration des données | |
| Transposition de caractères presque chinois | swap_char_position | Échanger au hasard les positions de caractères similaires pour obtenir une amélioration des données | |
| Remplacement de l'homophone | homophone_substitution | Même remplacement de vocabulaire de prononciation pour obtenir une amélioration des données | |
| Ajout et suppression de caractère aléatoire | random_add_delete | Ajouter ou supprimer au hasard un caractère dans le texte, ce qui n'a aucun effet sur la sémantique | |
| Remplacement de l'entité NER | Remplacer_entity | Selon Entity Dictionary, le remplacement aléatoire d'une entité dans le texte n'affectera pas la sémantique, et il est également largement utilisé dans l'annotation de séquence et la classification du texte |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Texte propre | clean_text | Supprimez les caractères d'exception, les caractères redondants, les balises HTML, les informations du support dans le texte, URL, e-mail, numéro de téléphone, conversion alphanumérique pleine largeur en demi-largeur | |
| Extraire e-mail | extrait_email | Extraire l'e-mail dans le texte, renvoyez l'emplacement et le nom de domaine | |
| Analyse du montant des devises | extrait_money | Analyse du montant de la devise | |
| Extraire les signaux WeChat | extrait_wechat_id | Dessinez WECHAT ID et retournez au lieu | |
| Dessiner un numéro de téléphone | extrait_phone_number | Extraire le numéro de téléphone (y compris le numéro de téléphone mobile et le numéro de ligne fixe ) et renvoyer le nom de domaine , le type et l'emplacement | |
| Extraire l'ID de carte d'identité chinoise | extrait_id_card | Extraire l'ID ID et coopérer avec Jio.Parse_id_card pour retourner les informations détaillées de la carte d'identité ( province, ville , date de naissance , sexe , code de vérification ) | |
| Dessiner le numéro QQ | extrait_qq | Dessinez des numéros QQ, divisés en règles strictes et des règles lâches | |
| URL d'extraction | extrait_url | Extraire Hyperlien URL | |
| Extraire l'adresse IP | extrait_ip_address | Extraire l'adresse IP | |
| Extraire le contenu entre parenthèses | Extract_paretenses | Extraire le contenu des supports, y compris {} "[] [] () () <>" | |
| Dessiner le numéro de plaque d'immatriculation | Extract_Motor_Vehicle_LICENCE_PLAQUE | Extraire les informations du numéro de plaque d'immatriculation du continent | |
| Supprimer le courrier électronique | retirer_email | Supprimer le message électronique dans le texte | |
| Supprimer l'URL | supprimer_url | Supprimer les informations d'URL dans le texte | |
| Supprimer le numéro de téléphone | retirer_phone_number | Supprimer le numéro de téléphone dans le texte | |
| Supprimer l'adresse IP | retire_ip_address | Supprimer l'adresse IP dans le texte | |
| Supprimer le numéro d'identification | retire_id_card | Supprimer les informations sur la carte d'identité dans le texte | |
| Supprimer QQ | supprimer_qq | Supprimer le numéro QQ dans le texte | |
| Supprimer les balises HTML | supprimer_html_tag | Supprimer les balises HTML restantes dans le texte | |
| Supprimer le contenu entre parenthèses | supprimer_parents | Supprimer le contenu des supports, y compris {} "[] [] () () <>" | |
| Supprimer les caractères d'exception | retire_exception_char | Supprimez les caractères d'exception dans le texte, conservant principalement les caractères chinois et ponctuation couramment utilisée. Symboles de calcul de l'unité, alphanumériques, etc. | |
| Supprimer les caractères redondants | retire_redundant_char | Supprimer des caractères en double redondants dans le texte | |
| E-mail normalisé | Remplacer_email | Le message électronique dans le texte normalisé est <e-mail> | |
| URL normalisée | Remplacer_url | Les informations URL dans le texte normalisé sont <URL> | |
| Numéro de téléphone normalisé | Replace_phone_number | Le numéro de téléphone dans le texte normalisé est <lor> | |
| Adresse IP normalisée | Remplacer_ip_address | L'adresse IP dans le texte normalisé est <p> | |
| Numéro d'identification normalisé | Remplacer_id_card | Les informations sur la carte d'identité dans le texte normalisé sont <id> | |
| QQ normalisé | Remplacer_qq | Le numéro QQ dans le texte normalisé est <qq> | |
| Déterminez si le texte contient des caractères chinois | check_any_chinese_char | Vérifiez si le texte contient des caractères chinois. Si au moins un est inclus, il reviendra vrai. | |
| Déterminez si le texte est tous des caractères chinois | check_all_chinese_char | Vérifiez si tous les caractères chinois sont dans le texte. Si tout le fait, retourne vraie | |
| Déterminez si le texte contient des chiffres arabes | check_any_arabic_num | Vérifiez si le texte contient des chiffres arabes. Si au moins un est inclus, il renvoie vrai | |
| Déterminez si tous les textes sont des chiffres arabes | check_all_arabic_num | Vérifiez si tous les chiffres arabes dans le texte sont. Si tout le fait, retourne vraie |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Lire les fichiers par ligne | read_file_by_iter | Il est facile de lire des fichiers par ligne sous la forme d'un itérateur, enregistrant la mémoire. Prend en charge le nombre spécifié de lignes , sautez les lignes vides | |
| Lire les fichiers par ligne | read_file_by_line | Lire les fichiers par ligne, prendre en charge le nombre spécifié de lignes , sauter les lignes vides | |
| Écrivez des éléments dans la liste pour déposer par ligne | write_file_by_line | Écrivez des éléments dans la liste pour déposer par ligne | |
| Outil de synchronisation | Temps | Calculez le temps passé dans un certain segment de code | |
| Outils de journalisation | set_logger | Réglez le formulaire de sortie du journal de la boîte à outils |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Ensemble de données d'évaluation LLM de modèle grand langage | jio.llm_test_dataset_loader | Ensemble de données d'évaluation LLM | |
| BPE au niveau des octets | jio.bpe.byte_level_bpe | Algorithme de niveau de niveau octet | |
| Dictionnaire d'arrêter | jio.stopwords_loader () | DICTIONNAIRE STOP GORT GROSSE DE BAIDU, JIEBA, IFLYTEK, ETC. | |
| Dictionnaire idiome | chinois_idiom_loader | Dictionnaire de chargement de l'idiome | |
| Dictionnaire des idiomes | xiehouyu_loader | Dictionnaire de chargement de l'idiome | |
| Dictionnaire chinois des noms de lieux | China_Location_loadher | Chargez le dictionnaire à trois niveaux des provinces, municipaux et comtés de la Chine | |
| Dictionnaire chinois de l'ajustement de la division | China_Location_Change_loadher | Chargement des dossiers de renommage et de renommée du niveau de comté et de zonage au-dessus en Chine depuis 2018 | |
| Dictionnaire nommé lieu du monde | world_location_loader | Chargez le continent mondial, le pays, le dictionnaire de la ville | |
| Dictionnaire Xinhua | chinois_char_dictionary_loader | Chargement du dictionnaire Xinhua | |
| Dictionnaire Xinhua | chinois_word_dictionary_loader | Chargement du dictionnaire Xinhua |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Extraire le montant de la devise entité | extrait_money | Extraire le montant de la devise du texte | |
| Extraire entité temporelle | extrait_time | Extraction des entités temporelles du texte | |
| Basé sur le dictionnaire NER | Lexique | Entité d'appariement maximum vers l'avant basé sur le dictionnaire d'entité spécifié | |
| entité à tag | entité2tag | Convertir en entité JSON Format en une séquence de balises traitée par le modèle | |
| Tag à l'entité | TAG2entité | Convertir la séquence de balises traitée par le modèle en une entité JSON au format | |
| Jeton de jeton de mot | mot à chary | Convertir le jeton de niveau de caractère en jeton de niveau de vocabulaire | |
| TOKEN MOT TOSSION TOCKE | word2char | Convertir le jeton de niveau de vocabulaire en jeton de niveau de caractère | |
| Comparaison des différences d'entités entre les étiquettes et les prédictions du modèle | entité_compare | Comparez différentiellement avec les résultats de l'entité prédits par le modèle d'annotation manuelle. | |
| Accélération de la prédiction du modèle NER | Tokensplitsentence Tokenbreaklongsence Tokenbatchbucket | Méthodes pour prédire l'accélération parallèle pour les modèles NER | |
| Ensemble de données divisé | analyse_dataset | Le corpus d'annotation NER est divisé en ensemble de formation, ensemble de vérification et ensemble de tests, et les statistiques de distribution de type d'entité de chaque sous-ensemble sont données. | |
| Collection d'entités | Collect_dataset_entities | Collectez les entités du corpus annoté pour former un dictionnaire |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Vocabulaire de catégorie d'analyse bayésienne naïve | analyse_freq_words | Pour le corpus annoté de classification de texte, effectuez une analyse de fréquence des mots bayésienne naïve et renvoyez un vocabulaire probabiliste haute condition pour divers textes | |
| Ensemble de données divisé | analyse_dataset | Le corpus d'annotation pour la classification du texte est divisé en ensemble de formation, ensemble de vérification et ensemble de tests. Et donner les statistiques de distribution de classification de chaque sous-ensemble |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Analyse des sentiments basés sur le dictionnaire | Lexiquement | Sur la base du dictionnaire émotionnel construit artificiellement, la valeur émotionnelle du texte est calculée, allant de 0 à 1 |
| Fonction | fonction | décrire | Note d'étoile |
|---|---|---|---|
| Mot à tag | cws.word2tag | Convertir la séquence de segmentation des mots de format JSON en séquence de balises traitée par modèle | |
| Tag au mot | cws.tag2word | Convertir la séquence de balises traitée par le modèle en segmentation de mots au format JSON | |
| Statistiques F1 Valeur | CWS.F1 | Comparaison de la valeur F1 de l'étiquette de l'étiquette du mot participe sur l'étiquette de prédiction du modèle | |
| Dictionnaire standard de correction des données de participe des mots | cws.cwsdsdcwithstandardwords | Corriger et réparer les données d'annotation des parties de mots à l'aide d'un dictionnaire standard |
Chengyu Cui, Jionlp, (2020), Github Repository, https://github.com/dongrixinyu/jionlp

