
Edgar-Crawler هي مجموعة الأدوات الوحيدة مفتوحة المصدر التي تقوم بتنزيل ملفات SEC المالية الخام وغير المهيكلة من Edgar وتحويلها إلى ملفات JSON منظمة من أجل الحصول على تجارب NLP المالية .
لدى إدغار توتار وظيفيين أساسيين:
بخلاف تنزيل ملفات RAW ، تعد Edgar-Crawler هي مجموعة الأدوات الوحيدة مفتوحة المصدر التي تحول ملفات SEC المعقدة وغير المهيكلة إلى مخرجات JSON المنظمة لسهولة التكامل مع البحث والتطوير. فيما يلي أمثلة على مثل هذه المخرجات لكل نوع من الإيداع المدعوم:
التقرير الأصلي: Apple 10-K من 2022
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-K " ,
"filing_date" : " 2022-10-28 " ,
"period_of_report" : " 2022-09-24 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019322000108/aapl-20220924.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-22-000108.txt " ,
"filename" : " 320193_10K_2022_0000320193-22-000108.htm " ,
"item_1" : " Item 1. Business n Company Background n The Company designs, manufactures ... " ,
"item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, results of ... " ,
"item_1B" : " Item 1B. Unresolved Staff Comments n None. " ,
"item_1C" : " " ,
"item_2" : " Item 2. Properties n The Company’s headquarters are located in Cupertino, California. ... " ,
"item_3" : " Item 3. Legal Proceedings n Epic Games n Epic Games, Inc. (“Epic”) filed a lawsuit ... " ,
"item_4" : " Item 4. Mine Safety Disclosures n Not applicable. ... " ,
"item_5" : " Item 5. Market for Registrant’s Common Equity, Related Stockholder ... " ,
"item_6" : " Item 6. [Reserved] n Apple Inc. | 2022 Form 10-K | 19 " ,
"item_7" : " Item 7. Management’s Discussion and Analysis of Financial Condition ... " ,
"item_8" : " Item 8. Financial Statements and Supplementary Data n All financial ... " ,
"item_9" : " Item 9. Changes in and Disagreements with Accountants on Accounting and Financial Disclosure n None. " ,
"item_9A" : " Item 9A. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"item_9B" : " Item 9B. Other Information n Rule 10b5-1 Trading Plans n During the three months ... " ,
"item_9C" : " Item 9C. Disclosure Regarding Foreign Jurisdictions that Prevent Inspections n Not applicable. ... " ,
"item_10" : " Item 10. Directors, Executive Officers and Corporate Governance n The information required ... " ,
"item_11" : " Item 11. Executive Compensation n The information required by this Item will be included ... " ,
"item_12" : " Item 12. Security Ownership of Certain Beneficial Owners and Management and ... " ,
"item_13" : " Item 13. Certain Relationships and Related Transactions, and Director Independence ... " ,
"item_14" : " Item 14. Principal Accountant Fees and Services n The information required ... " ,
"item_15" : " Item 15. Exhibit and Financial Statement Schedules n (a)Documents filed as part ... " ,
"item_16" : " Item 16. Form 10-K Summary n None. n Apple Inc. | 2022 Form 10-K | 57 "
}التقرير الأصلي: Apple 10-Q من Q1 2024
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 10-Q " ,
"filing_date" : " 2024-05-03 " ,
"period_of_report" : " 2024-03-30 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0928 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000032019324000069/aapl-20240330.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0000320193-24-000069.txt " ,
"filename" : " 320193_10Q_2024_0000320193-24-000069.htm " ,
"part_1" : " PART I - FINANCIAL INFORMATION n Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_1" : " Item 1. Financial Statements n Apple Inc. n CONDENSED CONSOLIDATED STATEMENTS ... " ,
"part_1_item_2" : " Item 2. Management’s Discussion and Analysis of Financial Condition and ... " ,
"part_1_item_3" : " Item 3. Quantitative and Qualitative Disclosures About Market Risk n There have ... " ,
"part_1_item_4" : " Item 4. Controls and Procedures n Evaluation of Disclosure Controls and ... " ,
"part_2" : " PART II - OTHER INFORMATION n Item 1. Legal Proceedings n Digital Markets Act Investigations n On ... " ,
"part_2_item_1" : " Item 1. Legal Proceedings n Digital Markets Act Investigations n On March 25, 2024, ... " ,
"part_2_item_1A" : " Item 1A. Risk Factors n The Company’s business, reputation, ... " ,
"part_2_item_2" : " Item 2. Unregistered Sales of Equity Securities and Use of ... " ,
"part_2_item_3" : " Item 3. Defaults Upon Senior Securities n None. " ,
"part_2_item_4" : " Item 4. Mine Safety Disclosures n Not applicable. " ,
"part_2_item_5" : " Item 5. Other Information n Insider Trading Arrangements n None. " ,
"part_2_item_6" : " Item 6. Exhibits n Incorporated by Reference n Exhibit n Number n Exhibit Description ... "
} ملاحظة: يحتوي part_1 و part_2 على النص المكتشف الكامل لهذا الجزء. نحن نقدم ذلك ، لأنه في بعض الملفات القديمة 10-Q ، لا يمكن استخراج المعلومات في مستوى العنصر.
التقرير الأصلي: Apple 8-K من 2022-08-19
{
"cik" : " 320193 " ,
"company" : " Apple Inc. " ,
"filing_type" : " 8-K " ,
"filing_date" : " 2022-08-19 " ,
"period_of_report" : " 2022-08-17 " ,
"sic" : " 3571 " ,
"state_of_inc" : " CA " ,
"state_location" : " CA " ,
"fiscal_year_end" : " 0924 " ,
"filing_html_index" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365-index.html " ,
"htm_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/000119312522225365/d366128d8k.htm " ,
"complete_text_filing_link" : " https://www.sec.gov/Archives/edgar/data/320193/0001193125-22-225365.txt " ,
"filename" : " 320193_8K_2022_0001193125-22-225365.htm " ,
"item_1.01" : " " ,
"item_1.02" : " " ,
"item_1.03" : " " ,
"item_1.04" : " " ,
"item_1.05" : " " ,
"item_2.01" : " " ,
"item_2.02" : " " ,
"item_2.03" : " " ,
"item_2.04" : " " ,
"item_2.05" : " " ,
"item_2.06" : " " ,
"item_3.01" : " " ,
"item_3.02" : " " ,
"item_3.03" : " " ,
"item_4.01" : " " ,
"item_4.02" : " " ,
"item_5.01" : " " ,
"item_5.02" : " Item 5.02 Departure of Directors or Certain Officers; Election of Directors; Appointment ... " ,
"item_5.03" : " Item 5.03 Amendments to Articles of Incorporation or Bylaws; Change in Fiscal Year. n On August 17, 2022, Apple’s Board approved and adopted amended and restated bylaws ... " ,
"item_5.04" : " " ,
"item_5.05" : " " ,
"item_5.06" : " " ,
"item_5.07" : " " ,
"item_5.08" : " " ,
"item_6.01" : " " ,
"item_6.02" : " " ,
"item_6.03" : " " ,
"item_6.04" : " " ,
"item_6.05" : " " ,
"item_7.01" : " " ,
"item_8.01" : " " ,
"item_9.01" : " Item 9.01 Financial Statements and Exhibits. n (d) Exhibits. n Exhibit n Number n Exhibit ... " ,
}EDGAR-CRAWLER محليًا عبر SSH أو HTTPS: # Method 1: SSH
git clone https://github.com/nlpaueb/edgar-crawler.git
# Method 2: HTTPS
git clone [email protected]:nlpaueb/edgar-crawler.gitconda create -n edgar-crawler-venv python=3.8 # After installing Anaconda, create a venv with python 3.8+
conda activate edgar-crawler-venv # Activate the environmentpip install -r requirements.txt # Install requirements for edgar-crawler قبل تشغيل أي برنامج نصي ، يجب عليك تحرير ملف config.json ، والذي يقوم بتكوين سلوك وحدتنا (واحدة لتنزيل الإيداعات التي تختارها ، والآخر للحصول على الإخراج المنظم لهما).
download_filings.py ، الوحدة النمطية لتنزيل التقارير المالية:start_year XXXX : نطاق السنة للبدء من (الافتراضي هو 2023).end_year YYYY : نطاق السنة إلى النهاية إلى (الافتراضي هو 2023).quarters : الأرباع التي تريد تنزيلها من (قائمة).[1, 2, 3, 4] .filing_types : قائمة أنواع الإيداع للتنزيل.['10-K', '8-K', '10-Q'] .cik_tickers : قائمة أو مسار ملف يحتوي على ciks أو المؤشرات. على سبيل المثال [789019, "1018724", "AAPL", "TWTR"]user_agent : عامل المستخدم (الاسم/البريد الإلكتروني) الذي سيتم إعلانه لـ Sec Edgar.raw_filings_folder : سيتم تخزين اسم المجلد حيث يتم تنزيل الإيداعات.'RAW_FILINGS' .indices_folder : اسم المجلد حيث سيتم تخزين ملفات Edgar TSV. وتستخدم هذه لتحديد التقارير السنوية. القيمة الافتراضية هي 'INDICES' .filings_metadata_file : اسم ملف CSV لحفظ البيانات الوصفية من التقارير.skip_present_indices : ما إذا كان يجب تخطي مؤشرات Edgar التي تم تنزيلها بالفعل أو تنزيلها رغم ذلك.True .extract_items.py ، الوحدة النمطية لتنظيف واستخراج البيانات النصية من التقارير التي تم تنزيلها بالفعل:raw_filings_folder : اسم المجلد حيث يتم تخزين المستندات التي تم تنزيلها.'RAW_FILINGS' .extracted_filings_folder : اسم المجلد حيث سيتم تخزين المستندات المستخرجة.'EXTRACTED_FILINGS' .filings_metadata_file : اسم ملف CSV لتحميل بيانات التعريف (توفير نفس ملف CSV كما في download_filings.py ).filing_types : قائمة أنواع الإيداع للاستخراج.include_signature : ما إذا كان يجب تضمين قسم التوقيع بعد العنصر الأخير أم لا.items_to_extract : قائمة مع أقسام العناصر المعينة المراد استخلاصها.['7','8'] لاستخراج "مناقشة وتحليل" الإدارة "و" البيانات المالية "لتقارير 10-K.remove_tables : ما إذا كان يجب إزالة الجداول التي تحتوي على بيانات رقمية (مالية) في الغالب. هذا العمل هو في الغالب لتسهيل أبحاث NLP حيث ، في كثير من الأحيان ، الجداول العددية غير مفيدة.skip_extracted_filings : ما إذا كان يجب تخطي ملفات مستخرجة بالفعل أو استخراجها رغم ذلك.True . لتنزيل التقارير المالية الخام من Edgar ، Run python download_filings.py .
لتنظيف واستخراج أقسام عنصر محددة من المستندات التي تم تنزيلها بالفعل ، قم بتشغيل python extract_items.py .
part كامل في ملف الإخراج كإدخال منفصل. ورقة المتاجر إدغار في طريقها. حتى ذلك الحين ، يرجى الاستشهاد بورقة Edgar-Corpus ذات الصلة المنشورة في EconLP@emnlp 2021 (بونتا كانا ، جمهورية الدومينيكان).
@inproceedings { loukas-etal-2021-edgar-corpus-and-edgar-crawler ,
title = " {EDGAR}-{CORPUS}: {B}illions of {T}okens {M}ake {T}he {W}orld {G}o {R}ound " ,
author = " Loukas, Lefteris and
Fergadiotis, Manos and
Androutsopoulos, Ion and
Malakasiotis, Prodromos " ,
booktitle = " Proceedings of the Third Workshop on Economics and Natural Language Processing (ECONLP) " ,
month = nov,
year = " 2021 " ,
address = " Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.econlp-1.2 " ,
pages = " 13--18 " ,
}اقرأ ورقة Edgar-Corpus هنا: https://aclanthology.org/2021.econlp-1.2/
فيما يلي بعض الموارد الإضافية التي تم إنشاؤها باستخدام إدغار المتوترة :
Edgar-Corpus : أكبر مجموعة مالية NLP ، 6 مليار رمز من التقارير السنوية (URL URL Huggingface؟) | (Zenodo URL).
EDGAR-W2V : Financial Word2VEC التضمينات ، التي تم تدريبها مسبقًا على Edgar-Corpus (URL Zenodo)
هل لديك أي طلب ميزة؟ أخبرنا مباشرة باستخدام نموذج Google هذا: (https://forms.gle/bpv8nxmqx8sq2v5z8)!
يتم قبول PRS والمساهمات. نحن نستخدم سير عمل فرع الميزة.
يرجى إنشاء مشكلة على Github بدلاً من إرسال بريد إلكتروني إلينا مباشرة حتى يتمكن جميع المستخدمين المحتملين من الاستفادة من استكشاف الأخطاء وإصلاحها.
تم ترخيص هذا البرنامج بموجب ترخيص GNU General Public V3.0 ، وهو ترخيص معتمد من مبادرة المصدر المفتوح (OSI).