كجزء من خدمة بيانات النقل المجانية ، يتم إصدار بيانات Transport for London (TFL) عن الرحلات التي يتم تناولها باستخدام دورات Santander الخاصة بهم - AKA "Boris Bikes". تعود البيانات إلى يناير 2015 ، حيث تعرض معلومات حول مواقع البداية ونهاية الرحلة ، إلى جانب المدة والوقت من اليوم. من خلال الجمع بين هذه المعلومات وإحداثيات كل نقطة تأجير دورة ، توقعت أن تكون الرحلة الأكثر احتمالًا لكل مجموعة بداية/نهاية ، بالإضافة إلى النظر في تأثير ضربات الأنبوب على استخدام الدراجة.
للحصول على جميع التفاصيل الفنية ، راجع دفتر Python على github هنا.
تستضيف TFL جميع بيانات الدورة الأولية على موقع بيانات الدراجات الخاص بهم كسلسلة من ملفات CSV. علاوة على ذلك ، لديهم أيضًا تغذية بيانات XML حية تُظهر حالة كل نقطة دراجة في لندن ، مما يؤدي إلى معلومات مثل إحداثياتها ، وعدد الأرصفة المجانية ، والسعة الكلية ، إلخ.
بالنسبة لأولئك غير المدركين ، فيما يلي خريطة لجميع محطات تأجير الدورة في جميع أنحاء لندن.

لقد قمت أيضًا بإنشاء نسخة تفاعلية رائعة من هذه المؤامرة في Bokeh - انقر هنا لرؤيتها (إنها 30 ميجابايت+، لذلك يستغرق التحميل قليلاً). يمكنك التكبير/التمرير مع هذا الإصدار ، ويخبرك أيضًا باسم وسعة كل موقع.
بالنظر إلى أن هناك 777 محطة في جميع أنحاء لندن (على الأقل في وقت كتابة هذا التقرير) ، يتيح ذلك 777 * 776 = 602،952 مجموعات رحلة محتملة إذا تجاهلنا تلك التي تبدأ وتنتهي في نفس المحطة. بالنظر إلى مجموعة البيانات الخاصة بي ، أجد حوالي 400 ألف مسار فريد تم اتخاذه بالفعل.
من أجل رسم كل مسار ، كنت بحاجة إلى وضع بعض الافتراضات حول كيفية إجراء كل رحلة ، حيث لا تتوفر معلومات عن المسار الفعلي. من أجل البساطة ، افترضت أنه لكل اقتران من البداية/النهاية ، اتخذ كل متسابق أسرع طريق على النحو المنصوص عليه في مخطط الطريق عبر الإنترنت. لجعل هذا الافتراض أكثر واقعية بعض الشيء ، قمت أيضًا بتخفيض مجموعة البيانات الخاصة بي إلى خطوط المؤامرة فقط التي استغرقت ما يصل إلى ضعف المدة المتوقعة لمخطط الطريق - أي تجاهل الرحلات التي اتخذت الدراجة الدراجات بوضوح آخر (وربما بعض الأشخاص البطيئين بشكل رهيب ).
في حين توفر Google API لتوجيهات ركوب الدراجات ، فإن 400000 طلب تتجاوز بكثير حد استخدام API المجاني ، وأكثر مما أرغب في دفع ثمنه. بدلاً من ذلك ، اخترت إعداد خادم OSRM الخاص بي ، والذي يمكنني الاستعلام عنه عدة مرات كما أحببت. يمكن العثور على تفاصيل كيفية إعداد الخادم على جيثب إيليا.
بمجرد أن قمت بحساب نقاط الطريق لكل مسار ، قمت بتخطيط مسار ناتج عن 13+ مليون باستخدام Datashader ، حيث قمت بتجميع كل مسار بعدد المرات التي اتخذت (أي كلما كانت الخط السميك ، كلما استخدموا هذا المسار). يمكن رؤية المؤامرة الكاملة أدناه:

أولاً ، دعونا نلقي نظرة على محطات الدراجات الأكثر شعبية في لندن. تحديد تدفق واحد كشخص يأخذ أو إرساء دراجة محطة ، ومحطات الدراجات العلوية في جميع أنحاء لندن هي:

شارع Belgrove ، Kings Cross هو الأكثر شعبية مع 314،729 تدفقات إجمالية (157،025 تدفق و 157،704 تدفق خارجي) عبر مجموعة البيانات بأكملها. الأقل شعبية من ناحية أخرى هو Bevington Road ، North Kensington ، مع 1131 تدفقًا إجماليًا (515 تدفقًا و 616 تدفقًا خارجيًا) - ومع ذلك تم تثبيت هذه المحطة فقط في 4 يوليو 2016.
هناك طريقة بديلة لترتيب المحطات من خلال خوارزمية Google Pagerank. النظرية الأساسية وراء خوارزمية Pagerank هي أنه إذا كانت المحطة مرتبطة بشكل متكرر عبر المحطات "المهمة" الأخرى ، فإن رتبة تلك المحطة ستزداد:

ومن المثير للاهتمام أن النتائج تختلف قليلاً عن الترتيب ببساطة بناءً على عدد من التدفقات. قد يعني هذا أنه في حين أن المحطات المختلفة الموجودة على حبلا قد لا تحتوي على أكبر عدد من التدفقات ، إلا أنها غالبًا ما يتم السفر إليها عبر المحطات "المهمة" الأخرى ، وبالتالي يتم تصنيفها بشكل كبير.
إذا كنت تعيش في لندن ، فربما لاحظت الشاحنات التي تحرك الدراجات خلال اليوم - أخذ الدراجات من المحطات الكاملة ، وإعادة توزيعها إلى محطات فارغة. من خلال النظر إلى الفرق بين التدفقات والتدفقات الخارجية ، يمكنني إظهار المحطات الأكثر تضرراً من عدم التوافق هذا ، وبالتالي تتطلب إعادة التوزيع.

من خلال تصفية مجموعة البيانات للنظر فقط في أيام الأسبوع في الصباح أو المساء ، يمكنني أيضًا إظهار أنماط التنقل في لندن:


في ما سبق ، يمثل Red محطة مع المزيد من الدراجات التي تغادر بدلاً من الدخول (التدفقات الخارجية> التدفقات) ، بينما يمثل الأخضر العكس. كما هو متوقع ، في الصباح ينتقل الناس إلى المركز من الضواحي ، بينما يحدث العكس في المساء. Canary Wharf هو أيضا ملحوظ جدا في الشرق.
يمكن رؤية نسخة تفاعلية من هذا الرسم البياني هنا - مرة أخرى ، هذا الإصدار 30 ميجابايت+، لذلك سوف يستغرق بعض الوقت للتحميل.
في 8 يوليو 2015 ، كان هناك إضراب أنبوب على مستوى لندن حدث من عام 1830 في المساء حتى 2130 في اليوم التالي. بينما كان لدي لحسن الحظ خيار العمل من المنزل في ذلك اليوم ، كان على العديد من سكان لندن إيجاد وسائل نقل بديلة للوصول إلى العمل. من خلال النظر إلى مجموعة البيانات هذه ، يمكنني محاولة معرفة ما إذا كان أي منهم يختار التدريب على العمل بدلاً من ذلك.
كقياس أول بسيط ، يعرض Barchart التالي عدد الرحلات التي تم إجراؤها بين 9 يونيو و 9 أغسطس في عام 2015:

نسخة تفاعلية هنا
هناك ارتفاع واضح في الرحلات التي اتخذت في 9 يوليو. ارتفاع الثاني؟ ضربة أنبوب أخرى.
بالنظر إلى صباح يوم الخميس التاسع فقط بين 0700 و 1000 ، تم إجراء 16501 رحلة في العاصمة. في نفس الفترة الزمنية في أيام الخميس التي سبقت وبعد الإضراب ، كان لدى 9111 و 9،215 رحلة على التوالي - لذا من الواضح أن صباح الإضراب الأنبوبي كان لديه المزيد من الرحلات. لاختبار هذا إحصائياً ، حددت مجموعة تحكم أكبر تم تعيينها في شهر واحد من جانبي الإضراب ، متجاهلاً عطلات نهاية الأسبوع (ما مجموعه 43 يومًا). نحصل على ما متوسطه 8579 رحلة في كل صباح في هذه المجموعة الضابطة ، وبانحراف معياري قدره 1،295 ، يختلف عدد الرحلات التي تم إجراؤها في صباح الإضراب الأنبوبي إحصائيًا عن المتوسط (باستخدام اختبار t بسيط).
بالنظر إلى محطات الدراجات الفردية ، يوضح الرسم البياني التالي متوسط عدد استخدامات الصباح (التدفقات + التدفقات الخارجة بين 0700-1000) في المجموعة الضابطة لأفضل 10 نقاط للدراجات ، ومقارنة ذلك بالاستخدام في صباح الإضراب الأنبوبي:

نسخة تفاعلية هنا
تقدم مجموعة بيانات TFL أيضًا معلومات عن الوقت المستغرق لإكمال المسار. بالنظر إلى توزيع مدة الرحلة بين المجموعة الضابطة وصباح Tube Strike ، أحصل على الرسوم البيانية التالية:

نسخة تفاعلية هنا
مقارنةً بالاثنين ، يبدو أن الرحلات في المتوسط استغرقت بالفعل وقتًا أطول في صباح الإضراب الأنبوبي - يحدث صندوق مشروط لمجموعة التحكم في أقل من 10 دقائق ، في حين أن صباح الإضراب الأنبوبي يزيد عن 16 دقيقة. رسميًا ، يمكنني اختبار هذا باستخدام اختبار Kolmogorov-Smirnov لعينين ، والذي يختبر ما إذا كانت عينتين تأتي من نفس التوزيع. باستخدام هذا الاختبار ، أجد أن العينتين مختلفتين إحصائيًا.
الفضل في إريك هانيل لبعض الإلهام الأصلي لهذا التحليل - انظر منشور مدونته "خريطة لدراجات لندن" هنا.