
Edgar-Crawler es el único conjunto de herramientas de código abierto que descarga las presentaciones de la SEC financieras sin procesar y no estructuradas de Edgar y las convierte en archivos JSON estructurados para arrancar experimentos financieros de PNL .
Edgar-Crawler tiene 2 funcionalidades básicas:
Además de descargar las presentaciones sin procesar, Edgar-Crawler es el único kit de herramientas de código abierto que convierte las presentaciones SEC complejas y no estructuradas a salidas JSON estructuradas para una integración más fácil de su investigación y desarrollo. A continuación se presentan ejemplos de tales salidas para cada tipo de archivo admitido:
Informe original: Apple 10-K de 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}Informe original: Apple 10-Q desde el primer trimestre de 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} Nota: part_1 y part_2 contienen el texto completo detectado para esa parte. Proporcionamos que, dado que en algunos archivos antiguos de 10-Q, no es posible extraer la información en el nivel de elemento.
Informe original: Apple 8-K de 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER localmente a través de SSH o HTTPS: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler Antes de ejecutar cualquier script, debe editar el archivo config.json , que configura el comportamiento de nuestros 2 módulos (uno para descargar las presentaciones de su elección, el otro para obtener la salida estructurada de ellos).
download_filings.py , el módulo para descargar informes financieros:start_year XXXX : el rango de año a comenzar desde (predeterminado es 2023).end_year YYYY : el rango de año a terminar (el valor predeterminado es 2023).quarters : Los cuartos de los que desea descargar presentaciones (Lista).[1, 2, 3, 4] .filing_types : Lista de tipos de archivo para descargar.['10-K', '8-K', '10-Q'] .cik_tickers : Lista o ruta del archivo que contiene CIKS o tickers. Eg [789019, "1018724", "AAPL", "TWTR"]user_agent : el agente de usuario (nombre/correo electrónico) que se declarará en Sec Edgar.raw_filings_folder : el nombre de la carpeta donde se almacenarán las presentaciones descargadas.'RAW_FILINGS' .indices_folder : el nombre de la carpeta donde se almacenarán los archivos EDGAR TSV. Estos se utilizan para localizar los informes anuales. El valor predeterminado es 'INDICES' .filings_metadata_file : nombre de archivo CSV para guardar metadatos de los informes.skip_present_indices : si omitir los índices Edgar ya descargados o descargarlos de todos modos.True .extract_items.py , el módulo para limpiar y extraer datos textuales de informes ya descargados:raw_filings_folder : el nombre de la carpeta donde se almacenan los documentos descargados.'RAW_FILINGS' .extracted_filings_folder : el nombre de la carpeta donde se almacenarán los documentos extraídos.'EXTRACTED_FILINGS' .filings_metadata_file : nombre de archivo CSV para cargar metadatos de informes (proporcione el mismo archivo CSV que en download_filings.py ).filing_types : Lista de tipos de archivo para extraer.include_signature : si se debe incluir la sección de firma después del último elemento o no.items_to_extract : una lista con ciertas secciones de elementos para extraer.['7','8'] para extraer 'Discusión y análisis de la gerencia' y 'Estados financieros' ítems para informes de 10-K.remove_tables : si eliminar las tablas que contienen principalmente datos numéricos (financieros). Este trabajo es principalmente para facilitar la investigación de PNL donde, a menudo, las tablas numéricas no son útiles.skip_extracted_filings : si omitir las presentaciones ya extraídas o extraerlas de todos modos.True . Para descargar los informes financieros RAW de Edgar, ejecute python download_filings.py .
Para limpiar y extraer secciones específicas de elementos de documentos ya descargados, ejecute python extract_items.py .
part completa en el archivo de salida como una entrada separada. Un artículo de Edgar-Rawler está en camino. Hasta entonces, cite nuestro artículo de Edgar-Corpus relevante publicado en ECONLP@EMNLP 2021 (Punta Cana, República Dominicana).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Lea el artículo de Edgar-Corpus aquí: https://aclanthology.org/2021.econlp-1.2/
Aquí hay algunos recursos adicionales creados mediante el uso de Edgar-Crawler :
Edgar-Corpus : El corpus NLP financiero más grande, más de 6 mil millones de tokens de informes anuales (¿URL de la cara de abrazo?) | (URL Zenodo).
EDGAR-W2V : Financial Word2Vec Incrushings, Pretrados en Edgar-Corpus (URL de Zenodo)
¿Tiene alguna solicitud de función? ¡Díganos directamente usando este formulario de Google: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
Se aceptan PR y contribuciones. Utilizamos el flujo de trabajo de la rama de funciones.
Cree un problema en GitHub en lugar de enviarnos un correo electrónico directamente para que todos los usuarios posibles puedan beneficiarse de la solución de problemas.
Este software tiene licencia bajo la Licencia Pública General de GNU V3.0, una licencia aprobada por la Iniciativa de código abierto (OSI).