
Edgar-Crawlerは、 Edgarから生および構造化されていないFinancial Secファイリングをダウンロードし、 Financial NLP実験をブートストラップするために構造化されたJSONファイルに変換する唯一のオープンソースツールキットです。
エドガークローラーには2つのコア機能があります。
RAWファイリングをダウンロードする以外に、 Edgar-Crawlerは、複雑で構造化されていないSECファイリングを構造化されたJSON出力に変換して、研究開発に容易に統合する唯一のオープンソースツールキットです。以下は、サポートされているファイリングタイプごとにこのような出力の例です。
オリジナルレポート:2022年のApple 10-K
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}元のレポート:2024年第1四半期からのApple 10-Q
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
}注: part_1とpart_2には、その部分の完全な検出されたテキストが含まれています。一部の古い10-Qファイルでは、アイテムレベルで情報を抽出することはできないためです。
オリジナルレポート:2022-08-19からApple 8-K
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLERをダウンロードしてください: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler スクリプトを実行する前に、2つのモジュールの動作を構成するconfig.jsonファイル(選択のファイリングをダウンロードするために、もう1つは構造化された出力を取得するために)を構成するconfig.jsonファイルを編集する必要があります。
download_filings.pyの引数、財務レポートをダウンロードするモジュール:start_year XXXX :から始まる年の範囲(デフォルトは2023)。end_year YYYY :終了する年の範囲(デフォルトは2023)。quarters :(リスト)からファイリングをダウンロードしたい四半期。[1, 2, 3, 4] 。filing_types :ダウンロードするファイリングタイプのリスト。['10-K', '8-K', '10-Q']です。cik_tickers :CIKSまたはティッカーを含むファイルのリストまたはパス。例[789019, "1018724", "AAPL", "TWTR"]user_agent :sec edgarに宣言されるユーザーエージェント(名前/電子メール)。raw_filings_folder :ダウンロードしたファイリングが保存されるフォルダーの名前。'RAW_FILINGS'です。indices_folder :Edgar TSVファイルが保存されるフォルダーの名前。これらは、年次報告書を見つけるために使用されます。デフォルト値は'INDICES'です。filings_metadata_file :レポートからメタデータを保存するためのCSVファイル名。skip_present_indices :既にダウンロードしたEdgarインデックスをスキップするか、ダウンロードするかどうか。Trueです。extract_items.pyの引数、既にダウンロードされたレポートからテキストデータをクリーニングおよび抽出するモジュール:raw_filings_folder :ダウンロードされたドキュメントが保存されているフォルダーの名前。'RAW_FILINGS' 。extracted_filings_folder :抽出されたドキュメントが保存されるフォルダーの名前。'EXTRACTED_FILINGS'です。filings_metadata_file :csv filename to Load Reportsメタデータ( download_filings.pyと同じCSVファイルを提供)。filing_types :抽出するファイリングタイプのリスト。include_signature :最後のアイテムの後に署名セクションを含めるかどうか。items_to_extract :抽出する特定のアイテムセクションを備えたリスト。['7','8'] 10-Kレポートの「管理の議論と分析」および「財務諸表」セクション項目を抽出します。remove_tables :主に数値(金融)データを含むテーブルを削除するかどうか。この作業は、主にNLPの研究を促進するためのものであり、多くの場合、数値テーブルが役に立たないことです。skip_extracted_filings :既に抽出されたファイリングをスキップするか、それでも抽出するかどうか。Trueです。エドガーから生の財務レポートをダウンロードするには、 python download_filings.py実行します。
既にダウンロードされたドキュメントから特定のアイテムセクションをクリーニングおよび抽出するには、 python extract_items.pyを実行します。
partを別のエントリとして含めます。 エドガー・クローラーの論文が近づいています。それまでは、econlp@emnlp 2021(ドミニカ共和国のプンタカナ)で公開されている関連するエドガーコルパスペーパーを引用してください。
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Edgar-Corpus Paperをご覧ください:https://aclanthology.org/2021.econlp-1.2/
Edgar-Crawlerを使用して作成された追加のリソースを次に示します。
Edgar-Corpus :最大の金融NLPコーパス、年次報告書(Huggingface URL?)からの60億トークン| (Zenodo URL)。
Edgar-W2V :Financial Word2Vec Embeddings、Edgar-Corpus(Zenodo URL)での事前訓練
機能リクエストはありますか?このGoogleフォームを使用して直接教えてください:(https://forms.gle/bpv8nxmqx8sq2v5z8)!
PRと貢献は受け入れられます。機能ブランチワークフローを使用します。
すべての可能なユーザーがトラブルシューティングから利益を得られるように、GitHubに直接メールで送信する代わりに問題を作成してください。
このソフトウェアは、オープンソースイニシアチブ(OSI)によって承認されたライセンスであるGNU General Public License v3.0の下でライセンスされています。