
Edgar-Crawler เป็นชุดเครื่องมือโอเพนซอร์ซเดียวที่ ดาวน์โหลด การยื่นเอกสารทางการเงินของ SEC แบบดิบ และไม่มีโครงสร้างจาก Edgar และแปลง เป็น ไฟล์ JSON ที่มีโครงสร้าง เพื่อ ทำการทดลอง NLP ทางการเงิน
Edgar-Crawler มีฟังก์ชั่นหลัก 2 ประการ:
นอกเหนือจากการดาวน์โหลดไฟล์ RAW แล้ว Edgar-Crawler เป็นชุดเครื่องมือโอเพนซอร์ซเพียงแห่งเดียวที่แปลงไฟล์ SEC ที่ซับซ้อนและไม่มีโครงสร้างเป็น เอาต์พุต JSON ที่มีโครงสร้าง เพื่อการรวมเข้ากับการวิจัยและพัฒนาของคุณได้ง่ายขึ้น ด้านล่างนี้เป็นตัวอย่างของผลลัพธ์ดังกล่าวสำหรับการยื่นเอกสารที่รองรับแต่ละประเภท:
รายงานต้นฉบับ: Apple 10-K จาก 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}รายงานต้นฉบับ: Apple 10-Q จาก Q1 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} หมายเหตุ: part_1 และ part_2 มีข้อความที่ตรวจพบเต็มรูปแบบสำหรับส่วนนั้น เราให้สิ่งนั้นเนื่องจากในไฟล์ 10-Q เก่าบางไฟล์จึงไม่สามารถแยกข้อมูลในระดับรายการได้
รายงานต้นฉบับ: Apple 8-K จาก 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER ในเครื่องผ่าน SSH หรือ HTTPS: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler ก่อนที่จะเรียกใช้สคริปต์ใด ๆ คุณควรแก้ไขไฟล์ config.json ซึ่งกำหนดค่าพฤติกรรมของโมดูล 2 ของเรา (หนึ่งสำหรับการดาวน์โหลดการยื่นเอกสารที่คุณเลือกอีกอันหนึ่งสำหรับการรับเอาต์พุตที่มีโครงสร้างของพวกเขา)
download_filings.py , โมดูลเพื่อดาวน์โหลดรายงานทางการเงิน:start_year XXXX : ช่วงปีที่จะเริ่มต้นจาก (ค่าเริ่มต้นคือ 2023)end_year YYYY : ช่วงปีที่จะสิ้นสุด (ค่าเริ่มต้นคือ 2023)quarters : ไตรมาสที่คุณต้องการดาวน์โหลดไฟล์จาก (รายการ)[1, 2, 3, 4]filing_types : รายการประเภทการยื่นเอกสารที่จะดาวน์โหลด['10-K', '8-K', '10-Q']cik_tickers : รายการหรือเส้นทางของไฟล์ที่มี CIKS หรือ tickers เช่น [789019, "1018724", "AAPL", "TWTR"]user_agent : ตัวแทนผู้ใช้ (ชื่อ/อีเมล) ที่จะประกาศให้ Sec Edgarraw_filings_folder : ชื่อของโฟลเดอร์ที่จะเก็บเอกสารที่ดาวน์โหลดมา'RAW_FILINGS'indices_folder : ชื่อของโฟลเดอร์ที่จะเก็บไฟล์ Edgar TSV สิ่งเหล่านี้ใช้เพื่อค้นหารายงานประจำปี ค่าเริ่มต้นคือ 'INDICES'filings_metadata_file : ชื่อไฟล์ CSV เพื่อบันทึกข้อมูลเมตาจากรายงานskip_present_indices : ไม่ว่าจะข้ามดัชนี Edgar แล้วหรือดาวน์โหลดอย่างไรก็ตามTrueextract_items.py , โมดูลเพื่อทำความสะอาดและแยกข้อมูลข้อความจากรายงานการโหลดแล้ว:raw_filings_folder : ชื่อของโฟลเดอร์ที่จัดเก็บเอกสารที่ดาวน์โหลดมา'RAW_FILINGS'extracted_filings_folder : ชื่อของโฟลเดอร์ที่จะเก็บเอกสารที่แยกออกมา'EXTRACTED_FILINGS'filings_metadata_file : CSV ชื่อไฟล์เพื่อโหลดรายงานข้อมูลเมตา (ระบุไฟล์ CSV เดียวกับใน download_filings.py )filing_types : รายการประเภทการยื่นเพื่อแยกinclude_signature : ไม่ว่าจะรวมส่วนลายเซ็นหลังจากรายการสุดท้ายหรือไม่items_to_extract : รายการที่มีส่วนรายการบางรายการเพื่อแยก['7','8'] เพื่อแยก 'การสนทนาและการวิเคราะห์ของฝ่ายบริหาร' และ 'งบการเงิน' รายการสำหรับรายงาน 10-Kremove_tables : จะลบตารางที่มีข้อมูลเป็นตัวเลข (การเงิน) ส่วนใหญ่หรือไม่ งานนี้ส่วนใหญ่เพื่ออำนวยความสะดวกในการวิจัย NLP ซึ่งบ่อยครั้งที่ตารางตัวเลขไม่มีประโยชน์skip_extracted_filings : ไม่ว่าจะข้ามการยื่นเอกสารที่ยื่นออกมาแล้วหรือแยกออกมาแล้วTrue ในการดาวน์โหลดรายงานทางการเงินดิบจาก Edgar ให้เรียกใช้ python download_filings.py
ในการทำความสะอาดและแยกส่วนรายการเฉพาะจากเอกสารที่ดาวน์โหลดแล้วให้เรียกใช้ python extract_items.py
part ทั้งหมดไว้ในไฟล์เอาต์พุตเป็นรายการแยกต่างหาก กระดาษ Edgar-Crawler กำลังจะมาถึง ก่อนหน้านั้นโปรดอ้างอิงกระดาษ Edgar-Corpus ที่เกี่ยวข้องของเราที่เผยแพร่ที่ Econlp@EMNLP 2021 (Punta Cana, สาธารณรัฐโดมินิกัน)
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}อ่านกระดาษ Edgar-Corpus ที่นี่: https://aclanthology.org/2021.econlp-1.2/
นี่คือแหล่งข้อมูลเพิ่มเติมที่สร้างขึ้นโดยใช้ Edgar-Crawler :
Edgar-Corpus : NLP Corpus ทางการเงินที่ใหญ่ที่สุด, โทเค็น 6 พันล้านโทจากรายงานประจำปี (HuggingFace URL?) | (zenodo url)
Edgar-W2V : Financial Word2vec Embeddings ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับ Edgar-Corpus (Zenodo URL)
คุณมีคำขอคุณสมบัติหรือไม่? บอกเราโดยตรงโดยใช้แบบฟอร์ม Google นี้: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
PRS และการมีส่วนร่วมได้รับการยอมรับ เราใช้เวิร์กโฟลว์สาขาคุณลักษณะ
โปรดสร้างปัญหาเกี่ยวกับ GitHub แทนการส่งอีเมลถึงเราโดยตรงเพื่อให้ผู้ใช้ที่เป็นไปได้ทุกคนสามารถได้รับประโยชน์จากการแก้ไขปัญหา
ซอฟต์แวร์นี้ได้รับใบอนุญาตภายใต้ใบอนุญาตสาธารณะ GNU ทั่วไป v3.0 ซึ่งเป็นใบอนุญาตที่ได้รับอนุมัติจากโครงการโอเพนซอร์ซ (OSI)