В рамках Службы бесплатной транспортной передачи данных транспорт для Лондона (TFL) данные о поездках, взятых с использованием их циклов Сантандера - он же «Boris Bikes». Данные возвращаются к января 2015 года, показывающая информацию о начале и конечных местах путешествия, а также продолжительность и время суток. Объединив эту информацию с координатами каждой точки набора цикла, я предсказал наиболее вероятный путь, проведенный для каждой комбинации начала/конечного, а также взглянуть на влияние ударов труб на использование велосипедов.
Для всех технических деталей см. The Python Notebook на моем GitHub здесь.
TFL HOST Все данные RAW CYCLE на своем веб -сайте Data Data в виде серии файлов CSV. Кроме того, они также имеют живой канал данных XML, показывающий состояние каждой точки велосипеда в Лондоне, давая информацию, такую как его координаты, количество бесплатных доков, общая емкость и т. Д.
Для тех, кто не знает, ниже представлена карта всех станций проката цикла по всему Лондону.

Я также сгенерировал причудливую интерактивную версию этого сюжета в Боке - нажмите здесь, чтобы увидеть его (это 30 МБ+, поэтому для загрузки требуется немного времени). Вы можете увеличить/прокрутить эту версию, и он также сообщает вам название и емкость каждого места.
Учитывая, что есть 777 станций по всему Лондону (по крайней мере, во время написания), это позволяет 777 * 776 = 602 952 возможных комбинаций путешествий, если мы игнорируем те, которые начинаются и заканчиваются на той же станции. Глядя на мой набор данных, я нахожу около 400 тысяч уникальных маршрутов.
Чтобы построить каждый маршрут, мне нужно было сделать некоторые предположения о том, как проводилось каждое путешествие, поскольку не доступна информация о фактическом взятом маршруте. Для простоты я предположил, что для каждой спаривания начала/конца каждый велосипедист выбрал самый быстрый маршрут, как это предписано онлайн -планировщиком маршрутов. Чтобы сделать это предположение немного более реалистичным, я также сократил свой набор данных только на графические маршруты, которые заняли вдвое больше времени, чем ожидаемая продолжительность планировщика маршрутов - то есть игнорируя поездки, где велосипедист явно выбрал другой маршрут (и, возможно, несколько ужасно медленных людей )
В то время как Google предлагает API езды на велосипеде, 400 000 запросов намного превышают их бесплатный лимит использования API и гораздо больше, чем я готов заплатить. Вместо этого я решил настроить свой собственный сервер OSRM, который я мог бы запрашивать столько раз, сколько мне понравилось. Подробности о том, как настроить сервер, можно найти на Github ILIA.
После того, как я рассчитал путевые точки для каждого маршрута, я построил в результате 13+ миллионов маршрутов, используя DataShader, агрегируя каждый маршрут по количеством раз, когда он был взят (то есть, чем толще линия, тем больше людей использовали этот маршрут). Полный сюжет можно увидеть ниже:

Во -первых, давайте посмотрим на самые популярные велосипедные станции в Лондоне. Определение одного потока как кто -то, кто берет или стыдит на велосипеде на станции, лучшие велосипедные станции по всему Лондону:

Belgrove Street, Kings Cross, является наиболее популярным среди 314 729 общих потоков (157 025 притоков и 157 704 оттоков) по всему набору данных. Наименее популярной, с другой стороны, является Бейвингтон -роуд, Северный Кенсингтон, с 1131 общим потоком (515 притоков и 616 оттоков) - однако эта станция была установлена только 4 июля 2016 года.
Альтернативный способ ранжирования станций - это алгоритм Google Pagerank. Основная теория, стоящая за алгоритмом PageRank

Интересно, что результаты немного отличаются от ранжирования просто на основе количества потоков. Это будет означать, что, хотя различные станции на пряди могут не иметь наибольшего количества потоков, они часто путешествуют через другие «важные» станции, тем самым считая высоко.
Если вы живете в Лондоне, вы, вероятно, заметили фургоны, которые перемещают велосипеды в течение дня - берут велосипеды с полных станций и перераспределяют их на пустые станции. Глядя на разницу между притоком и оттоком, я могу показать станции, которые наиболее влияют на это несоответствие и, таким образом, требуют наибольшего перераспределения.

Отфильтровав набор данных, чтобы посмотреть только на будние дни утром или вечером, я также могу показать поездка на поездка на лондонцах:


В вышесказанном красный представляет станцию с большим количеством велосипедов, чем вход (отток> приток), в то время как зеленый представляет собой противоположное. Как и ожидалось, утром люди ездят в центр из пригородов, в то время как противоположное происходит вечером. Canary Wharf также довольно заметен на востоке.
Интерактивная версия этого графика можно увидеть здесь - опять же, этот составляет 30 МБ+, поэтому потребуется время, чтобы загрузить.
8 июля 2015 года была удара по всему Лондону, которая произошла с 1830 года вечером до 2130 года на следующий день. В то время как, к счастью, у меня была возможность работать из дома в тот день, многим лондонцам приходилось найти альтернативные средства транспорта, чтобы приступить к работе. Глядя на этот набор данных, я могу попытаться посмотреть, решил ли кто -нибудь из них велосипедно работать.
В качестве простой первой метрики, следующий Барчарт показывает количество поездок, совершенных между 9 июня по 9 августа 2015 года:

Интерактивная версия здесь
В 9 июля есть четкий всплеск. Второй всплеск? Еще один удар трубки.
Глядя на утро четверга, 9 июля, между 0700 и 1000, в столице проводилось 16 501 путешествия. В тот же период времени в предыдущих четвергах и после удара было 9 1111 и 9 215 поездок соответственно - поэтому ясно, что утро удара труб было гораздо больше путешествий. Чтобы проверить это статистически, я определил более крупную контрольную группу, установленную через месяц по обе стороны от удара трубки, игнорируя выходные (всего 43 дня). В этой контрольной группе мы получаем в среднем 8 579 путешествий в утро, и со стандартным отклонением в 1295, количество поездок, совершенных в утро удара трубки, статистически отличается от среднего (использование простого t-критерия).
Глядя на отдельные велосипедные станции, на следующем графике показано среднее количество утренних видов использования (приток + отток между 0700-1000) в контрольной группе для 10 лучших велосипедных точек, сравнивая это с использованием в утро удара трубки:

Интерактивная версия здесь
Набор данных TFL также дает информацию о времени, проведенном для завершения маршрута. Глядя на распределение продолжительности путешествия между контрольной группой и ударом труб, я получаю следующие гистограммы:

Интерактивная версия здесь
Сравнивая их, может показаться, что в среднем поездка действительно заняло больше времени на удару пробирку - модальная корзина для контрольной группы происходит менее чем через 10 минут, тогда как для удара труб - более 16 минут. Формально я могу проверить это, используя тест Kolmogorov-Smirnov с двумя выборками, который проверяет, поступают ли два образца из одного и того же распределения. Используя этот тест, я обнаружил, что два образца статистически различаются.
Кредит Эрику Ханнеллу за некоторые оригинальные вдохновения для этого анализа - см. Его сообщение в блоге «Карта велосипедов Лондона» здесь.