
Edgar-Crawler est la seule boîte à outils open source qui télécharge les dépôts financiers SEC bruts et non structurés d'Edgar et les convertit en fichiers JSON structurés afin de bootstrap financiers NLP .
Edgar-Crawler a 2 fonctionnalités fondamentales:
Outre le téléchargement des dépôts bruts, Edgar-Crawler est la seule boîte à outils open source qui convertit les dépôts SEC complexes et non structurés aux sorties JSON structurées pour une intégration plus facile à votre recherche et développement. Vous trouverez ci-dessous des exemples de ces sorties pour chaque type de classement pris en charge:
Rapport original: Apple 10-K à partir de 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}Rapport d'origine: Apple 10-Q à partir du premier trimestre 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} Remarque: part_1 et part_2 contiennent le texte complet détecté pour cette partie. Nous fournissons que, comme dans certains anciens fichiers 10-Q, il n'est pas possible d'extraire les informations au niveau des éléments.
Rapport original: Apple 8-K de 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER localement via SSH ou HTTPS: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler Avant d'exécuter n'importe quel script, vous devez modifier le fichier config.json , qui configure le comportement de nos 2 modules (un pour le téléchargement des dépôts de votre choix, l'autre pour obtenir la sortie structurée d'entre eux).
download_filings.py , le module pour télécharger les rapports financiers:start_year XXXX : la plage de l'année à partir de (par défaut est 2023).end_year YYYY : la plage de l'année à terminer (par défaut est 2023).quarters : Les quartiers que vous souhaitez télécharger des dépôts (Liste).[1, 2, 3, 4] .filing_types : Liste des types de classement à télécharger.['10-K', '8-K', '10-Q'] .cik_tickers : Liste ou chemin du fichier contenant CIKS ou Tickers. par exemple [789019, "1018724", "AAPL", "TWTR"]user_agent : l'agent utilisateur (nom / e-mail) qui sera déclaré SEC Edgar.raw_filings_folder : Le nom du dossier où les dépôts téléchargés seront stockés.'RAW_FILINGS' .indices_folder : le nom du dossier où les fichiers EDGAR TSV seront stockés. Ceux-ci sont utilisés pour localiser les rapports annuels. La valeur par défaut est 'INDICES' .filings_metadata_file : nom de fichier CSV pour enregistrer les métadonnées des rapports.skip_present_indices : Que ce soit pour sauter déjà les indices Edgar ou les télécharger néanmoins.True .extract_items.py , le module pour nettoyer et extraire les données textuelles des rapports déjà téléchargés:raw_filings_folder : Le nom du dossier où les documents téléchargés sont stockés.'RAW_FILINGS' .extracted_filings_folder : le nom du dossier où les documents extraits seront stockés.'EXTRACTED_FILINGS' .filings_metadata_file : nom de fichier CSV pour charger les métadonnées des rapports (fournir le même fichier CSV que dans download_filings.py ).filing_types : Liste des types de classement à extraire.include_signature : s'il faut inclure la section de signature après le dernier élément ou non.items_to_extract : une liste avec certaines sections d'élément à extraire.['7','8'] pour extraire les éléments de la «discussion et analyse de la direction» et des «états financiers» pour les rapports de 10 k.remove_tables : Il faut supprimer des tableaux contenant principalement des données numériques (financières). Ce travail consiste principalement à faciliter la recherche sur la PNL où, souvent, les tables numériques ne sont pas utiles.skip_extracted_filings : Que ce soit pour sauter déjà des dépôts extraits ou les extraire.True . Pour télécharger les rapports financiers bruts d'Edgar, exécutez python download_filings.py .
Pour nettoyer et extraire des sections d'élément spécifiques à partir de documents déjà téléchargés, exécutez python extract_items.py .
part complète du fichier de sortie comme une entrée distincte. Un papier Edgar-Crawler est en route. Jusque-là, veuillez citer notre article Edgar-Corpus pertinent publié sur ECONLP @ EMNLP 2021 (Punta Cana, République dominicaine).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Lisez le document Edgar-Corpus ici: https://aclanthology.org/2021.econlp-1.2/
Voici quelques ressources supplémentaires créées en utilisant Edgar-Crawler :
Edgar-Corpus : Le plus grand corpus Financial NLP, 6+ milliards de jetons à partir de rapports annuels (URL HuggingFace?) | (URL Zenodo).
Edgar-W2V : Financial Word2Vec Embeddings, pré-formé sur Edgar-Corpus (Zenodo URL)
Avez-vous une demande de fonctionnalité? Dites-nous directement en utilisant ce formulaire Google: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
Les PR et les contributions sont acceptés. Nous utilisons le flux de travail de la branche des fonctionnalités.
Veuillez créer un problème sur GitHub au lieu de nous envoyer un e-mail directement afin que tous les utilisateurs possibles puissent bénéficier du dépannage.
Ce logiciel est concédé sous licence GNU General Public License v3.0, une licence approuvée par l'initiative open-source (OSI).