Ted (Tenders Electronic Daily) adalah versi online dari 'Suplemen untuk Jurnal Resmi' UE, yang didedikasikan untuk pengadaan publik Eropa.
TED menyediakan akses gratis ke pemberitahuan pengadaan publik dari otoritas kontrak yang berbasis di Uni Eropa dan di Wilayah Ekonomi Eropa (juga jika mereka menyediakan layanan di negara lain mana pun).
Situs web TED saat ini menawarkan unduhan massal paket XML yang berasal dari tahun 1993, yang dapat ditemukan di FTP FTP://TED.EUROPA.eu/ dapat diakses dengan kredensial generik (tamu/tamu).
Repo ini berisi skrip untuk mengekstrak dan menguraikan pemberitahuan penghargaan kontrak , yaitu hasil prosedur pengadaan. Script telah sepenuhnya diuji untuk mengekstrak semua pemberitahuan penghargaan kontrak untuk 2014, 2015 dan 2016. Dokumen diekstraksi sebagai kamus Python yang dapat disimpan dalam database MongoDB untuk pengambilan yang mudah, atau lebih lanjut dinormalisasi untuk dikonversi dalam CSV.
Gambar di bawah ini menunjukkan contoh dokumen seperti yang ditunjukkan di situs web TED.

Contoh data yang diekstraksi (dari dokumen yang sama di atas):
{
'DOC_ID': '466898-2016',
'CODED_DATA': {
'NOTICE_DATA': {
'IA_URL_GENERAL': 'www.ekz.ch',
'ISO_COUNTRY': 'CH',
'NO_DOC_OJS': '2016/S 253-466898',
'ORIGINAL_CPV': ['79970000'],
'REF_NOTICE': ['2016/S 172-310484']
},
'CODIF_DATA': {
'AA_AUTHORITY_TYPE': '4',
'AC_AWARD_CRIT': 'Z',
'DS_DATE_DISPATCH': '20161230',
'MA_MAIN_ACTIVITIES': ['Z'],
'NC_CONTRACT_NATURE': '4',
'PR_PROC': '2',
'RP_REGULATION': '7',
'TD_DOCUMENT_TYPE': '7',
'TY_TYPE_BID': '9'
}
},
'CONTRACT': {
'OTH_NOT': 'NO',
'CONTRACTING_AUTHORITY': 'Elektrizitätswerke des Kantons Zürich',
'CONTRACT_OBJECT': {
'CONCLUSION_FRAMEWORK_AGREEMENT': 'NO',
'CONTRACTS_DPS': 'NO',
'CONTRACT_COVERED_GPA': 'YES',
'CPV_MAIN': '79970000'
}
},
'AWARDS_OF_CONTRACT': [
{
'CONTRACTOR': {
'ADDRESS': 'Mühlebachstraße 52',
'COUNTRY': 'CH',
'OFFICIALNAME': 'Linkgroup AG',
'POSTAL_CODE': '8008',
'TOWN': 'Zürich'
},
'CONTRACT_VALUE': {
'COST': {
'CURRENCY': 'CHF',
'VALUE': 700000.0
}
}
}
]
}
Bidang dan deskripsi data yang diekstraksi
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Doc_id | Rangkaian | Nomor dokumen unik di TED. |
Bagian CODED_DATA dibagi dalam 2 kelompok data.
| Bidang | Tipe data | Keterangan |
|---|---|---|
| NO_DOC_OJS | Rangkaian | Nomor pemberitahuan di Ted |
| Original_nuts | Daftar (String) | Kode wilayah tempat kinerja atau pengiriman. Kode 2-5 digit nomenklatur unit teritorial untuk statistik . Nilai pencarian untuk dua digit pertama: iso_country.csv |
| Original_cpv | Daftar (String) | Kode Produk atau Layanan 8 digit dari kosakata pengadaan umum . Nilai pencarian untuk dua digit pertama: cpv.csv |
| Iso_country | Rangkaian | 2-karakter ISO Kode negara tempat badan kontrak berada. Nilai pencarian: iso_country.csv |
| IA_URL_GENERAL | Rangkaian | Alamat Internet Utama (URL) dari badan kontrak |
| Ref_notice | Daftar (String) | Nomor Pemberitahuan Referensi di TED. Merujuk publikasi sebelumnya (informasi sebelumnya, corrigendum, ...) |
| Values_list | Nilai total | Perkiraan nilai total atau total nilai akhir dari pengadaan |
Values_list dapat terdiri dari bidang -bidang berikut:
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Global_Value | Nilai | Nilai total tender. Harus sama dengan jumlah dalam daftar contracts_value |
| Kontrak_value | Daftar (nilai) | Nilai penghargaan individu. Ini terjadi ketika kontrak terdiri dari beberapa bagian atau banyak. |
Setiap nilai dapat berupa nilai tunggal atau rentang dan dapat memiliki persentase PPN
| Bidang | Tipe data | Keterangan |
|---|---|---|
| MATA UANG | Rangkaian | Mata uang nilai |
| NILAI | Mengambang | Nilai |
| Vat_prct | Int | Persentase PPN |
| Bidang | Tipe data | Keterangan |
|---|---|---|
| MATA UANG | Rangkaian | Mata uang nilai |
| Low_value | Mengambang | Nilai rentang yang lebih rendah |
| High_value | Mengambang | Nilai kisaran yang lebih tinggi |
| Vat_prct | Int | Persentase PPN |
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Ds_date_dispatch | Rangkaian | Tanggal pengiriman pemberitahuan. Format: yyyymmdd |
| Td_document_type | Rangkaian | Jenis dokumen. Nilai pencarian: td_document_type.csv |
| Aa_authority_type | Rangkaian | Jenis otoritas pemberian. Nilai pencarian: aa_authority_type.csv |
| NC_CONTRACT_NATURE | Rangkaian | Sifat kontrak. Nilai pencarian: nc_contract_nature.csv |
| PR_PROC | Rangkaian | Jenis prosedur. Nilai pencarian: pr_proc.csv |
| RP_REGULASI | Rangkaian | Peraturan yang berlaku untuk prosedur. Nilai pencarian: rp_regulation.csv |
| Ty_type_bid | Rangkaian | Jenis tawaran. Nilai pencarian: TY_TYPE_BID.CSV |
| Ac_award_crit | Rangkaian | Jenis kriteria pemberian. Nilai pencarian: ac_award_crit.csv |
| Ma_main_activities | Daftar (String) | Aktivitas utama badan kontrak. Nilai pencarian: ma_main_activities.csv |
Bagian kontrak berisi pemberitahuan itu sendiri, dalam format XML. Dalam file XML asli, bagian ini dapat tersedia dalam terjemahan yang berbeda, hingga 24 ketika diterjemahkan sepenuhnya. Jika tersedia, terjemahan kontrak bahasa Inggris lebih disukai. Kalau tidak, Prancis dan Jerman masing -masing menjadi pilihan kedua dan ketiga. Ketika salah satu terjemahan ini tidak ada, yang pertama tersedia dipilih.
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Oth_not | Rangkaian | Menunjukkan apakah pemberitahuan mengikuti struktur standar (kemudian oth_not = tidak ) atau struktur terbuka untuk memungkinkan publikasi pemberitahuan lain yang tidak mengikuti formulir standar, alias pemberitahuan non-terstruktur (kemudian oth_not = ya ). Hanya jika oth_not = tidak , bidang contracting_authority, contract_object dan penghargaan_of_contract diekstraksi |
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Contracting_authority | Rangkaian | Nama otoritas kontrak |
Objek kontrak.
| Bidang | Tipe data | Keterangan |
|---|---|---|
| GILA | Daftar (String) | Kode wilayah tempat kinerja atau pengiriman. Kode 2-5 digit nomenklatur unit teritorial untuk statistik . Nilai pencarian untuk dua digit pertama: iso_country.csv |
| Nuts_extra | Rangkaian | Komentar tambahan yang diekstraksi di tempat kinerja atau pengiriman |
| Cpv_main | Rangkaian | Produk atau layanan utama 8 digit kode kosakata pengadaan umum . Nilai pencarian untuk dua digit pertama: cpv.csv |
| Kontrak_covered_gpa | Rangkaian | Ya atau Tidak Jika Kontrak ditanggung oleh IPK (Perjanjian Pengadaan Pemerintah) |
| Kesimpulan_framework_agreement | Rangkaian | Ya atau tidak jika kontrak adalah bagian dari perjanjian kerangka kerja |
| Kontrak_dps | Rangkaian | Ya atau tidak jika kontrak tunduk pada sistem pembelian yang dinamis |
| Kontrak_value | Nilai kontrak | Nilai total. Harus sesuai dengan jumlah nilai kontrak kontraktor individu. Lihat bagian penghargaan_of_contract |
Setiap nilai kontrak dapat terdiri dari bidang berikut:
| Bidang | Tipe data | Keterangan |
|---|---|---|
| BIAYA | Nilai | Biaya sebenarnya |
| MEMPERKIRAKAN | Nilai | Perkiraan awal biaya |
| Number_of_years | Int | Jumlah tahun kontrak berlangsung. Biaya/perkiraan mungkin diberikan per tahun |
| Number_of_months | Int | Jumlah bulan kontrak bertahan. Biaya/perkiraan mungkin diberikan per bulan |
Bidang sama seperti yang disebutkan di atas. Lihat Jenis Data Nilai Bagian
Daftar Penghargaan.
Setiap penghargaan dapat berisi sub-bagian berikut:
| Bidang | Tipe data | Keterangan |
|---|---|---|
| Nama resmi | Rangkaian | Nama Kontraktor |
| NEGARA | Rangkaian | Negara kontraktor |
| ALAMAT | Rangkaian | Alamat (Nama Jalanan) Kontraktor |
| KOTA | Rangkaian | Kota Kontraktor |
| KODE POS | Rangkaian | Kode Pos Kontraktor |
Bidang sama seperti yang disebutkan di atas. Lihat Bagian 3.3.1 Contract_Value
Modul Python Diperlukan:
Opsional:
Versi Python: 3.6 Database: MongoDB, Mode Lokal
Contoh cara mengonversi dokumen
file_path = '454322_2015.xml' # Contract Award notice downloaded from tED website
# Extract the raw data
from extractor import extract
raw = extract ( file_path )
# Validate the raw data
from validator import validate
data = validate ( raw )
# Prune the data: remove empty fields
from validator import prune
prune ( data )Struktur Repositori:
.
├── Lookups
│ └── AA_AUTHORITY_TYPE.csv
│ └── AC_AWARD_CRIT.csv
│ └── CPV.csv
│ └── ISO_COUNTRY.csv
│ └── MA_MAIN_ACTIVITY.csv
│ └── NC_CONTRACT_NATURE.csv
│ └── PR_PROC.csv
│ └── RP_REGULATION.csv
│ └── TD_DOCUMENT_TYPE.csv
│ └── TY_TYPE_BID.csv
├── extractor.py
└── validator.py
└── mongo_import.py
Lookups : folder yang berisi berbagai file pencarianextractor.py : Script untuk mengekstrak data mentah dari pemberitahuan penghargaan kontrakvalidator.py : skrip untuk memvalidasi data mentah dan memangkas kamus (yaitu menghapus arsip kosong)mongo_import.py : skrip untuk mengunggah data dalam database MongoDB Alessandra Sozzi, Bekerja untuk Kantor Proyek Big Data Statistik Nasional
Dirilis di bawah lisensi MIT.