Ted(Tenders Electronic Daily)は、EUの「公式ジャーナルの補足」のオンライン版であり、欧州の公共調達専用です。
TEDは、欧州連合および欧州経済圏に拠点を置く契約当局からの公共調達通知への無料アクセスを提供します(他の国でもサービスを提供する場合)。
TED Webサイトは現在、1993年にさかのぼるXMLパッケージの大量ダウンロードを提供しています。これは、FTP ftp://ted.europa.eu/にありますが、一般的な資格情報(ゲスト/ゲスト)でアクセスできます。
このリポジトリには、TED契約賞の通知を抽出および解析するためのスクリップ、つまり調達手順の結果が含まれています。スクリプトは、2014年、2015年、2016年のすべての契約賞の通知を抽出するために完全にテストされています。ドキュメントは、MongoDBデータベースに保存できるPython辞書として抽出され、CSVで変換されるようにさらに正規化されます。
以下の画像は、TED Webサイトに示されているドキュメントの例を示しています。

抽出されたデータの例(上記の同じドキュメントから):
{
'DOC_ID': '466898-2016',
'CODED_DATA': {
'NOTICE_DATA': {
'IA_URL_GENERAL': 'www.ekz.ch',
'ISO_COUNTRY': 'CH',
'NO_DOC_OJS': '2016/S 253-466898',
'ORIGINAL_CPV': ['79970000'],
'REF_NOTICE': ['2016/S 172-310484']
},
'CODIF_DATA': {
'AA_AUTHORITY_TYPE': '4',
'AC_AWARD_CRIT': 'Z',
'DS_DATE_DISPATCH': '20161230',
'MA_MAIN_ACTIVITIES': ['Z'],
'NC_CONTRACT_NATURE': '4',
'PR_PROC': '2',
'RP_REGULATION': '7',
'TD_DOCUMENT_TYPE': '7',
'TY_TYPE_BID': '9'
}
},
'CONTRACT': {
'OTH_NOT': 'NO',
'CONTRACTING_AUTHORITY': 'Elektrizitätswerke des Kantons Zürich',
'CONTRACT_OBJECT': {
'CONCLUSION_FRAMEWORK_AGREEMENT': 'NO',
'CONTRACTS_DPS': 'NO',
'CONTRACT_COVERED_GPA': 'YES',
'CPV_MAIN': '79970000'
}
},
'AWARDS_OF_CONTRACT': [
{
'CONTRACTOR': {
'ADDRESS': 'Mühlebachstraße 52',
'COUNTRY': 'CH',
'OFFICIALNAME': 'Linkgroup AG',
'POSTAL_CODE': '8008',
'TOWN': 'Zürich'
},
'CONTRACT_VALUE': {
'COST': {
'CURRENCY': 'CHF',
'VALUE': 700000.0
}
}
}
]
}
抽出されたデータのフィールドと説明
| 分野 | データ型 | 説明 |
|---|---|---|
| doc_id | 弦 | TEDのユニークなドキュメント番号。 |
CODED_DATAセクションは、2つのデータグループに分かれています。
| 分野 | データ型 | 説明 |
|---|---|---|
| no_doc_ojs | 弦 | TEDの通知番号 |
| original_nuts | リスト(文字列) | パフォーマンスまたは配信の場所の地域コード。統計のための領土単位の命名法の2〜5桁のコード。最初の2桁のルックアップ値:iso_country.csv |
| Original_cpv | リスト(文字列) | 一般的な調達語彙の製品またはサービス8桁のコード。最初の2桁のルックアップ値:CPV.CSV |
| ISO_COUNTRY | 弦 | 契約機関が配置されている国の2文字のISOコード。ルックアップ値:iso_country.csv |
| ia_url_general | 弦 | 契約機関のメインインターネットアドレス(URL) |
| ref_notice | リスト(文字列) | TEDの参照通知番号。以前の出版物を参照する(事前の情報、コリゲンダム、...) |
| VALUES_LIST | 合計値 | 調達の推定合計値または合計最終値 |
VALUES_LISTは、次のフィールドで構成できます。
| 分野 | データ型 | 説明 |
|---|---|---|
| Global_Value | 価値 | 入札の合計値。 contracts_valueリストの合計に等しくなければなりません |
| 契約_Value | リスト(値) | 個々の賞の価値。これは、契約が複数の部品またはロットで構成されている場合に発生します。 |
各値は単一または範囲値であり、VATパーセンテージを持つことができます
| 分野 | データ型 | 説明 |
|---|---|---|
| 通貨 | 弦 | 値の通貨 |
| 価値 | フロート | 価値 |
| VAT_PRCT | int | VATパーセンテージ |
| 分野 | データ型 | 説明 |
|---|---|---|
| 通貨 | 弦 | 値の通貨 |
| low_value | フロート | 範囲の低い値 |
| high_value | フロート | 範囲のより高い値 |
| VAT_PRCT | int | VATパーセンテージ |
| 分野 | データ型 | 説明 |
|---|---|---|
| ds_date_dispatch | 弦 | 通知の派遣日。形式:yyyymmdd |
| td_document_type | 弦 | ドキュメントの種類。ルックアップ値:td_document_type.csv |
| aa_authority_type | 弦 | 授与機関の種類。ルックアップ値:aa_authority_type.csv |
| nc_contract_nature | 弦 | 契約の性質。ルックアップ値:nc_contract_nature.csv |
| PR_PROC | 弦 | 手順の種類。ルックアップ値:pr_proc.csv |
| RP_REGULATION | 弦 | 手順に適用される規制。ルックアップ値:rp_regulation.csv |
| ty_type_bid | 弦 | 入札の種類。ルックアップ値:ty_type_bid.csv |
| ac_award_crit | 弦 | 授与基準の種類。ルックアップ値:ac_award_crit.csv |
| ma_main_activities | リスト(文字列) | 契約機関の主な活動。ルックアップ値:ma_main_activities.csv |
契約セクションには、XML形式の通知自体が含まれています。元のXMLファイルでは、このセクションはさまざまな翻訳で利用できます。完全に翻訳されたときは最大24です。利用可能な場合、契約の英語翻訳が推奨されます。それ以外の場合、フランス語とドイツ語はそれぞれ2番目と3番目の選択肢になります。この翻訳のいずれかが存在しない場合、最初に利用可能なものが選択されます。
| 分野 | データ型 | 説明 |
|---|---|---|
| oth_not | 弦 | 通知が標準構造( OTH_NOT = no )に従っているか、構造が開いているかどうかを示します。これは、標準フォーム、別名非構造化通知(then oth_not = yes )に従っていない他の通知の公開を許可します。 oth_not = noの場合にのみ、フィールド契約_authority、contract_object、およびawards_of_contractが抽出されます |
| 分野 | データ型 | 説明 |
|---|---|---|
| 契約_Authority | 弦 | 契約当局の名前 |
契約のオブジェクト。
| 分野 | データ型 | 説明 |
|---|---|---|
| ナッツ | リスト(文字列) | パフォーマンスまたは配信の場所の地域コード。統計のための領土単位の命名法の2〜5桁のコード。最初の2桁のルックアップ値:iso_country.csv |
| nuts_extra | 弦 | パフォーマンスや配達の場所に関する追加の抽出されたコメント |
| cpv_main | 弦 | メイン製品またはサービス8桁の一般的な調達語彙のコード。最初の2桁のルックアップ値:CPV.CSV |
| contract_covered_gpa | 弦 | 契約がGPA(政府調達契約)のカバーがカバーされている場合は、はいまたはいいえ |
| 結論_framework_agreement | 弦 | 契約がフレームワーク契約の一部である場合は、はいまたはいいえ |
| 契約_dps | 弦 | 契約が動的な購買システムの対象である場合は、はいまたはいいえ |
| Contract_Value | 契約価値 | 合計値。個々の請負業者の契約値の合計に対応する必要があります。セクションawards_of_contractを参照してください |
各契約値は、次のフィールドで構成できます。
| 分野 | データ型 | 説明 |
|---|---|---|
| 料金 | 価値 | 実際のコスト |
| 見積もり | 価値 | コストの初期見積もり |
| number_of_years | int | 契約の年数は最後です。費用/見積もりは年間与えられる場合があります |
| number_of_months | int | 契約が最後に月数。費用/見積もりは月に与えられる場合があります |
フィールドは上記と同じです。セクション値データ型を参照してください
賞のリスト。
各賞には、次のサブセクションを含めることができます。
| 分野 | データ型 | 説明 |
|---|---|---|
| 公式名 | 弦 | 請負業者の名前 |
| 国 | 弦 | 請負業者の国 |
| 住所 | 弦 | 請負業者の住所(ストリート名) |
| 町 | 弦 | 請負業者の町 |
| 郵便番号 | 弦 | 請負業者の郵便法 |
フィールドは上記と同じです。セクション3.3.1 Contract_Valueを参照してください
Pythonモジュールが必要:
オプション:
Pythonバージョン:3.6データベース:Mongodb、ローカルモード
ドキュメントを変換する方法の例
file_path = '454322_2015.xml' # Contract Award notice downloaded from tED website
# Extract the raw data
from extractor import extract
raw = extract ( file_path )
# Validate the raw data
from validator import validate
data = validate ( raw )
# Prune the data: remove empty fields
from validator import prune
prune ( data )リポジトリ構造:
.
├── Lookups
│ └── AA_AUTHORITY_TYPE.csv
│ └── AC_AWARD_CRIT.csv
│ └── CPV.csv
│ └── ISO_COUNTRY.csv
│ └── MA_MAIN_ACTIVITY.csv
│ └── NC_CONTRACT_NATURE.csv
│ └── PR_PROC.csv
│ └── RP_REGULATION.csv
│ └── TD_DOCUMENT_TYPE.csv
│ └── TY_TYPE_BID.csv
├── extractor.py
└── validator.py
└── mongo_import.py
Lookups :さまざまなルックアップファイルを含むフォルダーextractor.py :契約賞から生データを抽出するスクリプトvalidator.pyデータを検証し、辞書をプルンするためのスクリプト(つまり、空のファイリングを削除します)mongo_import.pyデータベースにデータをアップロードするスクリプトAlessandra Sozzi、国家統計局のオフィスで働いているビッグデータプロジェクト
MITライセンスの下でリリースされました。