
Edgar-Crawler adalah satu-satunya toolkit open-source yang mengunduh pengarsipan SEC finansial mentah dan tidak terstruktur dari Edgar dan mengubahnya menjadi file JSON terstruktur untuk bootstrap eksperimen NLP keuangan .
Edgar-Crawler memiliki 2 fungsi inti:
Selain mengunduh pengajuan mentah, Edgar-Crawler adalah satu-satunya alat open-source yang mengubah pengarsipan SEC yang kompleks dan tidak terstruktur menjadi output JSON terstruktur untuk integrasi yang lebih mudah untuk penelitian dan pengembangan Anda. Di bawah ini adalah contoh output tersebut untuk setiap jenis pengarsipan yang didukung:
Laporan Asli: Apple 10-K dari 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}Laporan Asli: Apple 10-Q dari Q1 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} CATATAN: part_1 dan part_2 berisi teks penuh yang terdeteksi untuk bagian itu. Kami menyediakan bahwa, karena dalam beberapa file 10-Q lama, tidak mungkin untuk mengekstrak informasi di level item.
Laporan Asli: Apple 8-K dari 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER secara lokal melalui SSH atau https: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler Sebelum menjalankan skrip apa pun, Anda harus mengedit file config.json , yang mengonfigurasi perilaku 2 modul kami (satu untuk mengunduh pengarsipan pilihan Anda, yang lain untuk mendapatkan output terstruktur dari mereka).
download_filings.py , modul untuk mengunduh laporan keuangan:start_year XXXX : Kisaran tahun yang akan dimulai dari (default adalah 2023).end_year YYYY : kisaran tahun yang akan berakhir (default adalah 2023).quarters : Perempat yang ingin Anda unduh pengarsipan dari (daftar).[1, 2, 3, 4] .filing_types : Daftar jenis pengarsipan untuk diunduh.['10-K', '8-K', '10-Q'] .cik_tickers : Daftar atau jalur file yang berisi CIK atau ticker. misalnya [789019, "1018724", "AAPL", "TWTR"]user_agent : agen pengguna (nama/email) yang akan dinyatakan ke SEC Edgar.raw_filings_folder : Nama folder tempat pengajuan yang diunduh akan disimpan.'RAW_FILINGS' .indices_folder : Nama folder tempat file Edgar TSV akan disimpan. Ini digunakan untuk menemukan laporan tahunan. Nilai default adalah 'INDICES' .filings_metadata_file : nama file CSV untuk menyimpan metadata dari laporan.skip_present_indices : Apakah akan melewatkan indeks edgar yang sudah diunduh atau mengunduhnya.True .extract_items.py , modul untuk membersihkan dan mengekstrak data tekstual dari laporan yang sudah diunduh:raw_filings_folder : Nama folder tempat dokumen yang diunduh disimpan.'RAW_FILINGS' .extracted_filings_folder : Nama folder tempat dokumen yang diekstraksi akan disimpan.'EXTRACTED_FILINGS' .filings_metadata_file : nama file CSV untuk memuat laporan metadata (berikan file CSV yang sama seperti di download_filings.py ).filing_types : Daftar jenis pengarsipan untuk diekstrak.include_signature : Apakah akan memasukkan bagian tanda tangan setelah item terakhir atau tidak.items_to_extract : Daftar dengan bagian item tertentu untuk diekstrak.['7','8'] untuk mengekstrak 'diskusi dan analisis manajemen' dan 'Laporan Keuangan' item untuk laporan 10-K.remove_tables : Apakah akan menghapus tabel yang sebagian besar berisi data numerik (keuangan). Pekerjaan ini sebagian besar untuk memfasilitasi penelitian NLP di mana, seringkali, tabel numerik tidak berguna.skip_extracted_filings : Apakah akan melewatkan pengajuan yang sudah diekstraksi atau mengekstraknya.True . Untuk mengunduh laporan keuangan mentah dari Edgar, jalankan python download_filings.py .
Untuk membersihkan dan mengekstrak bagian item tertentu dari dokumen yang sudah diunduh, jalankan python extract_items.py .
part penuh dalam file output sebagai entri terpisah. Kertas Edgar-Crawler sedang dalam perjalanan. Sampai saat itu, silakan kutip kertas Edgar-Corpus kami yang relevan yang diterbitkan di ECONLP@EMNLP 2021 (Punta Cana, Republik Dominika).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Baca makalah Edgar-Corpus di sini: https://aclanthology.org/2021.econlp-1.2/
Berikut adalah beberapa sumber tambahan yang dibuat dengan menggunakan Edgar-Crawler :
Edgar-Corpus : Corpus NLP keuangan terbesar, 6+ miliar token dari laporan tahunan (URL Huggingface?) | (URL Zenodo).
Edgar-W2V : Financial Word2Vec Embeddings, pra-terlatih di edgar-corpus (URL Zenodo)
Apakah Anda memiliki permintaan fitur? Beri tahu kami secara langsung menggunakan formulir Google ini: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
PR dan kontribusi diterima. Kami menggunakan alur kerja cabang fitur.
Harap buat masalah di GitHub alih -alih mengirim email kepada kami secara langsung sehingga semua kemungkinan pengguna dapat memperoleh manfaat dari pemecahan masalah.
Perangkat lunak ini dilisensikan berdasarkan GNU General Public License v3.0, lisensi yang disetujui oleh Open-Source Initiative (OSI).