作為免費運輸數據服務的一部分,倫敦運輸(TFL)使用桑坦德週期(又稱“鮑里斯自行車”)釋放有關旅行的數據。數據可以追溯到2015年1月,顯示了有關旅程的起點和終點的信息,以及一天中的持續時間和時間。通過將這些信息與每個週期租賃點的坐標相結合,我預測了每種起始/終點組合的最有可能的旅程,並查看了管罷工對自行車使用的影響。
有關所有技術細節,請參閱我的Github上的Python筆記本。
TFL作為一系列CSV文件在其自行車數據網站上託管所有原始週期數據。此外,他們還具有實時的XML數據供稿,顯示了倫敦每個自行車點的狀態,產生了信息,例如其坐標,免費碼頭數量,總容量,總容量等。
對於那些不知道的人來說,下面是倫敦各地所有自行車租賃站的地圖。

我還在Bokeh中生成了此圖的精美交互式版本 - 單擊此處查看它(它是30MB+,因此需要一點時間才能加載)。您可以使用此版本進行縮放/滾動,它還告訴您每個位置的名稱和容量。
鑑於倫敦各地有777個電台(至少在寫作時),如果我們忽略那些在同一站點開始和結束的,這允許777 * 776 = 602,952可能的旅程組合。查看我的數據集,我發現實際採用了大約40萬個獨特的路線。
為了繪製每條路線,我需要對每次旅行的進行方式做出一些假設,因為沒有有關實際路線的信息。為簡單起見,我假設對於每個啟動/結束配對,每個騎自行車的人都按照在線路線計劃者規定的最快路線。為了使這個假設更加現實,我還將數據集切成了繪製路線的繪製路線,這些路線最多是路線策劃者的預期持續時間的兩倍- 即忽略騎自行車的人顯然走了另一條路線(也許有些非常慢的人) )。
雖然Google提供了自行車指示API,但400,000個請求遠遠超出了其免費的API使用限制,而且遠遠超出了我願意支付的範圍。取而代之的是,我選擇設置自己的OSRM服務器,我可以根據自己的喜好查詢多次查詢。有關如何設置服務器的詳細信息可以在ILIA的GitHub上找到。
一旦計算了每條路線的航路點,我就使用DataShader繪製了所得的13多個路線,將每條路線匯總到所採用的次數(即較厚的行,使用該路線的人越多)。完整的情節可以在下面看到:

首先,讓我們看一下倫敦最受歡迎的自行車站。將單個流動定義為乘坐自行車站的人,倫敦的頂級自行車站是:

Belgrove Street,Kings Cross是整個數據集中最受歡迎的314,729個流量(157,025個流入和157,704個外流)。另一方面,最不受歡迎的是北肯辛頓的貝文頓路,總流量為1,131個(515個流入和616個外流) - 但是,這個車站僅在2016年7月4日安裝。
對電台進行排名的另一種方法是通過Google的Pagerank算法。 Pagerank算法背後的基本理論是,如果一個站點經常通過其他“重要”站鏈接,那麼該站的等級將會增加:

有趣的是,結果與排名僅基於流量數量有很大不同。這意味著,儘管鏈上的各個站點可能沒有最高數量的流量,但它們經常通過其他“重要”站前往,因此排名很高。
如果您住在倫敦,您可能會注意到白天將自行車移動的貨車 - 從整個車站拿起自行車,然後將它們重新分配到空站。通過查看流入和流出之間的差異,我可以向受此不匹配影響最嚴重的站點展示,因此需要最大的重新分配。

通過過濾數據集以僅在早上或晚上查看工作日,我還可以顯示倫敦人的通勤模式:


在上面,紅色代表一個車站,其自行車要多於進入(流出>流入),而綠色則代表相反的情況。正如預期的那樣,早晨,人們從郊區通往中心,而相反發生在晚上。金絲雀碼頭在東方也很明顯。
該圖的交互式版本可以在這裡看到 - 同樣,該圖是30MB+,因此需要一段時間才能加載。
2015年7月8日,從1830年傍晚到第二天的2130年,發生了倫敦範圍內的罷工。雖然我幸運地可以選擇那天在家工作,但許多倫敦人不得不找到其他運輸方式才能上班。通過查看此數據集,我可以嘗試查看它們是否選擇循環工作。
作為一個簡單的第一個指標,以下Barchart顯示了6月9日至2015年8月9日之間進行的旅程數量:

互動版本
在7月9日進行的旅程中有一個明顯的高峰。第二個尖峰?另一個試管罷工。
在7月9日(星期四)0700年至1000年之間的早晨,首都進行了16,501次旅行。在星期四的同一時期,罷工之後分別進行了9,111和9,215次旅行 - 因此,顯然,罷工早晨有更多的旅程。為了從統計學上測試此操作,我定義了一個較大的對照組,該組設置為管罷工的任何一側,忽略了周末(總計43天)。在該對照組中,我們平均每天早晨進行8,579次旅行,並且標準偏差為1,295,在管罷工的早晨進行的旅程數量在統計學上與平均值(使用簡單的t檢驗)在統計學上不同。
查看單個自行車站,以下圖顯示了對照組的平均早晨用途數量(流入 +在0700-1000之間的流出量),將其與Tube Trike早上的使用情況進行比較:

互動版本
TFL數據集還提供有關完成路線所花費的信息。查看對照組和管罷工早晨之間的旅程持續時間的分佈,我得到以下直方圖:

互動版本
比較兩者,似乎平均而言,旅途確實確實需要更長的時間在罷工早晨- 對照組的模態垃圾箱發生在不到10分鐘的時間內,而在管罷工的早晨,對照組的垃圾箱超過16分鐘。正式地,我可以使用兩個樣本的Kolmogorov-Smirnov測試對此進行測試,該測試測試了兩個樣本是否來自相同的分佈。使用此測試,我發現這兩個樣本在統計上是不同的。
歸功於埃里克·漢納爾(Eric Hannell)的一些原始靈感來進行此分析 - 請參閱此處的博客文章“倫敦自行車地圖”。