
O Edgar-Crawler é o único kit de ferramentas de código aberto que baixa os registros financeiros brutos e não estruturados da EDGAR e os converte em arquivos JSON estruturados, a fim de inicializar experimentos de PNL financeira .
Edgar-Crawler tem 2 funcionalidades principais:
Além do download dos arquivos brutos, a Edgar-Crawler é o único kit de ferramentas de código aberto que converte os registros complexos e não estruturados da SEC em saídas de JSON estruturadas para facilitar a integração em sua pesquisa e desenvolvimento. Abaixo estão exemplos dessas saídas para cada tipo de arquivamento suportado:
Relatório original: Apple 10-K de 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}Relatório original: Apple 10-Q do primeiro trimestre 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} Nota: part_1 e part_2 contêm o texto completo detectado para essa peça. Fornecemos que, como em alguns arquivos antigos de 10 Q, não é possível extrair as informações no nível do item.
Relatório original: Apple 8-K de 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER localmente via SSH ou HTTPS: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler Antes de executar qualquer script, você deve editar o arquivo config.json , que configura o comportamento de nossos 2 módulos (um para baixar os registros de sua escolha, o outro para obter a saída estruturada deles).
download_filings.py , o módulo para baixar relatórios financeiros:start_year XXXX : o intervalo do ano para começar (o padrão é 2023).end_year YYYY : o ano intermediário para terminar (o padrão é 2023).quarters : Os quartos que você deseja baixar de registros (lista).[1, 2, 3, 4] .filing_types : Lista de tipos de arquivamento para download.['10-K', '8-K', '10-Q'] .cik_tickers : Lista ou caminho de arquivo contendo CIKs ou tickers. Por exemplo [789019, "1018724", "AAPL", "TWTR"]user_agent : o agente do usuário (nome/email) que será declarado como secgar.raw_filings_folder : O nome da pasta onde os arquivos baixados serão armazenados.'RAW_FILINGS' .indices_folder : o nome da pasta onde os arquivos Edgar TSV serão armazenados. Eles são usados para localizar os relatórios anuais. O valor padrão é 'INDICES' .filings_metadata_file : CSV FileName para salvar metadados dos relatórios.skip_present_indices : Se deve pular os índices EDGAR já baixados ou baixá -los, no entanto.True .extract_items.py , o módulo para limpar e extrair dados textuais de relatórios já baixados:raw_filings_folder : o nome da pasta onde os documentos baixados são armazenados.'RAW_FILINGS' .extracted_filings_folder : o nome da pasta onde os documentos extraídos serão armazenados.'EXTRACTED_FILINGS' .filings_metadata_file : nome do arquivo CSV para carregar os metadados dos relatórios (forneça o mesmo arquivo CSV que em download_filings.py ).filing_types : Lista de tipos de arquivamento para extrair.include_signature : se deve incluir a seção de assinatura após o último item ou não.items_to_extract : Uma lista com as seções de certas seções de item para extrair.['7','8'] para extrair itens de discussão e análise da administração 'e' demonstrações financeiras 'para relatórios de 10-K.remove_tables : se deve remover tabelas contendo dados principalmente numéricos (financeiros). Este trabalho é principalmente para facilitar a pesquisa da PNL, onde, muitas vezes, as tabelas numéricas não são úteis.skip_extracted_filings : se deve pular arquivos já extraídos ou extraí -los, no entanto.True . Para baixar os relatórios financeiros RAW de Edgar, execute python download_filings.py .
Para limpar e extrair seções específicas de itens de documentos já baixados, execute python extract_items.py .
part completa do arquivo de saída como uma entrada separada. Um papel de crawler de Edgar está a caminho. Até então, cite nosso artigo de Edgar-Corpus relevante publicado em Econlp@EMNLP 2021 (Punta Cana, República Dominicana).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Leia o artigo Edgar-Corpus aqui: https://aclanthology.org/2021.econlp-1.2/
Aqui estão alguns recursos adicionais criados usando Edgar-Crawler :
Edgar-Corpus : o maior corpus financeiro da NLP, mais de 6 bilhões de tokens de relatórios anuais (URL da Huggingface?) | (Zenodo URL).
EDGAR-W2V : INCLIMENTOS FINANCEIROS WORD2VEC, pré-treinado em Edgar-Corpus (Zenodo URL)
Você tem algum pedido de recurso? Diga -nos diretamente usando este formulário do Google: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
PRs e contribuições são aceitos. Usamos o fluxo de trabalho do ramo de recursos.
Crie um problema no GitHub em vez de nos enviar um e -mail diretamente para que todos os usuários possam se beneficiar da solução de problemas.
Este software é licenciado sob a licença pública geral da GNU v3.0, uma licença aprovada pela iniciativa de código aberto (OSI).