
Edgar-Crawler -единственный инструментарий с открытым исходным кодом, который загружает необработанные и неструктурированные финансовые документы с Edgar и преобразует их в структурированные файлы JSON, чтобы загрузить финансовые эксперименты NLP .
Edgar-Crawler имеет 2 основные функции:
Помимо загрузки необработанных документов, Edgar-Crawler -единственный инструментарий с открытым исходным кодом, который преобразует сложные и неструктурированные SEC-документы в структурированные выходы JSON для более легкой интеграции в ваши исследования и разработки. Ниже приведены примеры таких выходов для каждого поддерживаемого типа подачи:
Оригинальный отчет: Apple 10-K с 2022 года
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}Оригинальный отчет: Apple 10-Q от Q1 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} Примечание: part_1 и part_2 содержат полный обнаруженный текст для этой части. Мы предоставляем это, поскольку в некоторых старых 10-Q-файлах невозможно извлечь информацию на уровне элемента.
Оригинальный отчет: Apple 8-K с 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER локально через SSH или https: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler Перед запуском какого -либо скрипта вы должны отредактировать файл config.json , который настраивает поведение наших 2 модулей (один для загрузки документов по вашему выбору, другой для получения структурированного вывода их).
download_filings.py , модуль для загрузки финансовых отчетов:start_year XXXX : диапазон года для начала (по умолчанию 2023).end_year YYYY : Диапазон года до конца (по умолчанию 2023).quarters : кварталы, которые вы хотите загрузить по заявкам (список).[1, 2, 3, 4] .filing_types : Список типов заявок для загрузки.['10-K', '8-K', '10-Q'] .cik_tickers : список или путь файла, содержащий CIK или тикеры. например [789019, "1018724", "AAPL", "TWTR"]user_agent : пользовательский агент (имя/электронная почта), который будет объявлен SEC Edgar.raw_filings_folder : имя папки, где будут сохранены загруженные заявки.'RAW_FILINGS' .indices_folder : имя папки, где будут храниться файлы Edgar TSV. Они используются для поиска годовых отчетов. Значение по умолчанию - 'INDICES' .filings_metadata_file : CSV FILENAME, чтобы сохранить метаданные из отчетов.skip_present_indices : Спуски уже скачали индексы Edgar или загрузить их, тем не менее.True .extract_items.py , модуль для очистки и извлечения текстовых данных из уже загруженных отчетов:raw_filings_folder : имя папки, где хранятся загруженные документы.'RAW_FILINGS' .extracted_filings_folder : имя папки, где будут сохранены извлеченные документы.'EXTRACTED_FILINGS' .filings_metadata_file : CSV FILENAME для загрузки метаданных отчетов (предоставьте тот же файл CSV, что и в download_filings.py ).filing_types : Список типов заявок для извлечения.include_signature : включить раздел подписи после последнего элемента или нет.items_to_extract : список с определенными разделами элементов для извлечения.['7','8'] для извлечения «обсуждение и анализ руководства» и «Финансовая отчетность».remove_tables : удалить ли таблицы, содержащие в основном численные (финансовые) данные. Эта работа в основном для облегчения исследований НЛП, где часто численные таблицы не полезны.skip_extracted_filings : пропустить уже извлеченные заявки или извлечь их, тем не менее.True . Чтобы загрузить Raw Financial Reports от Edgar, запустите python download_filings.py .
Чтобы очистить и извлечь конкретные разделы элементов из уже загруженных документов, запустите python extract_items.py .
part в выходном файле в качестве отдельной записи. Бумага Эдгара-Круплер уже в пути. До тех пор, пожалуйста, цитируйте нашу соответствующую статью Edgar-Corpus, опубликованную по адресу econlp@emnlp 2021 (Punta Cana, Доминиканская Республика).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}Прочитайте документ Edgar-Corpus здесь: https://aclanthology.org/2021.econlp-1.2/
Вот несколько дополнительных ресурсов, созданных с помощью Edgar-Crawler :
Edgar-Corpus : крупнейший финансовый корпус NLP, 6+ миллиардов токенов из годовых отчетов (URL HuggingFace?) | (Zenodo URL).
Edgar-W2V : Financial Word2VEC Entgeddings, предварительно обученные на Edgar-Corpus (Zenodo URL)
У вас есть запрос на функции? Расскажите нам напрямую, используя эту форму Google: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
PRS и взносы принимаются. Мы используем рабочий процесс филиала.
Пожалуйста, создайте проблему на GitHub вместо того, чтобы отправлять нам по электронной почте напрямую, чтобы все возможные пользователи могли извлечь выгоду из устранения неполадок.
Это программное обеспечение имеет лицензию в соответствии с Главной публичной лицензией GNU V3.0, лицензией, утвержденной Инициативой с открытым исходным кодом (OSI).