作为免费运输数据服务的一部分,伦敦运输(TFL)使用桑坦德周期(又称“鲍里斯自行车”)释放有关旅行的数据。数据可以追溯到2015年1月,显示了有关旅程的起点和终点的信息,以及一天中的持续时间和时间。通过将这些信息与每个周期租赁点的坐标相结合,我预测了每种起始/终点组合的最有可能的旅程,并查看了管罢工对自行车使用的影响。
有关所有技术细节,请参阅我的Github上的Python笔记本。
TFL作为一系列CSV文件在其自行车数据网站上托管所有原始周期数据。此外,他们还具有实时的XML数据供稿,显示了伦敦每个自行车点的状态,产生了信息,例如其坐标,免费码头数量,总容量,总容量等。
对于那些不知道的人来说,下面是伦敦各地所有自行车租赁站的地图。

我还在Bokeh中生成了此图的精美交互式版本 - 单击此处查看它(它是30MB+,因此需要一点时间才能加载)。您可以使用此版本进行缩放/滚动,它还告诉您每个位置的名称和容量。
鉴于伦敦各地有777个电台(至少在写作时),如果我们忽略那些在同一站点开始和结束的,这允许777 * 776 = 602,952可能的旅程组合。查看我的数据集,我发现实际采用了大约40万个独特的路线。
为了绘制每条路线,我需要对每次旅行的进行方式做出一些假设,因为没有有关实际路线的信息。为简单起见,我假设对于每个启动/结束配对,每个骑自行车的人都按照在线路线计划者规定的最快路线。为了使这个假设更加现实,我还将数据集切成了绘制路线的绘制路线,这些路线最多是路线策划者的预期持续时间的两倍 - 即忽略骑自行车的人显然走了另一条路线(也许有些非常慢的人) )。
虽然Google提供了自行车指示API,但400,000个请求远远超出了其免费的API使用限制,而且远远超出了我愿意支付的范围。取而代之的是,我选择设置自己的OSRM服务器,我可以根据自己的喜好查询多次查询。有关如何设置服务器的详细信息可以在ILIA的GitHub上找到。
一旦计算了每条路线的航路点,我就使用DataShader绘制了所得的13多个路线,将每条路线汇总到所采用的次数(即较厚的行,使用该路线的人越多)。完整的情节可以在下面看到:

首先,让我们看一下伦敦最受欢迎的自行车站。将单个流动定义为乘坐自行车站的人,伦敦的顶级自行车站是:

Belgrove Street,Kings Cross是整个数据集中最受欢迎的314,729个流量(157,025个流入和157,704个外流)。另一方面,最不受欢迎的是北肯辛顿的贝文顿路,总流量为1,131个(515个流入和616个外流) - 但是,这个车站仅在2016年7月4日安装。
对电台进行排名的另一种方法是通过Google的Pagerank算法。 Pagerank算法背后的基本理论是,如果一个站点经常通过其他“重要”站链接,那么该站的等级将会增加:

有趣的是,结果与排名仅基于流量数量有很大不同。这意味着,尽管链上的各个站点可能没有最高数量的流量,但它们经常通过其他“重要”站前往,因此排名很高。
如果您住在伦敦,您可能会注意到白天将自行车移动的货车 - 从整个车站拿起自行车,然后将它们重新分配到空站。通过查看流入和流出之间的差异,我可以向受此不匹配影响最严重的站点展示,因此需要最大的重新分配。

通过过滤数据集以仅在早上或晚上查看工作日,我还可以显示伦敦人的通勤模式:


在上面,红色代表一个车站,其自行车要多于进入(流出>流入),而绿色则代表相反的情况。正如预期的那样,早晨,人们从郊区通往中心,而相反发生在晚上。金丝雀码头在东方也很明显。
该图的交互式版本可以在这里看到 - 同样,该图是30MB+,因此需要一段时间才能加载。
2015年7月8日,从1830年傍晚到第二天的2130年,发生了伦敦范围内的罢工。虽然我幸运地可以选择那天在家工作,但许多伦敦人不得不找到其他运输方式才能上班。通过查看此数据集,我可以尝试查看它们是否选择循环工作。
作为一个简单的第一个指标,以下Barchart显示了6月9日至2015年8月9日之间进行的旅程数量:

互动版本
在7月9日进行的旅程中有一个明显的高峰。第二个尖峰?另一个试管罢工。
在7月9日(星期四)0700年至1000年之间的早晨,首都进行了16,501次旅行。在星期四的同一时期,罢工之后分别进行了9,111和9,215次旅行 - 因此,显然,罢工早晨有更多的旅程。为了从统计学上测试此操作,我定义了一个较大的对照组,该组设置为管罢工的任何一侧,忽略了周末(总计43天)。在该对照组中,我们平均每天早晨进行8,579次旅行,并且标准偏差为1,295,在管罢工的早晨进行的旅程数量在统计学上与平均值(使用简单的t检验)在统计学上不同。
查看单个自行车站,以下图显示了对照组的平均早晨用途数量(流入 +在0700-1000之间的流出量),将其与Tube Trike早上的使用情况进行比较:

互动版本
TFL数据集还提供有关完成路线所花费的信息。查看对照组和管罢工早晨之间的旅程持续时间的分布,我得到以下直方图:

互动版本
比较两者,似乎平均而言,旅途确实确实需要更长的时间在罢工早晨 - 对照组的模态垃圾箱发生在不到10分钟的时间内,而在管罢工的早晨,对照组的垃圾箱超过16分钟。正式地,我可以使用两个样本的Kolmogorov-Smirnov测试对此进行测试,该测试测试了两个样本是否来自相同的分布。使用此测试,我发现这两个样本在统计上是不同的。
归功于埃里克·汉纳尔(Eric Hannell)的一些原始灵感来进行此分析 - 请参阅此处的博客文章“伦敦自行车地图”。