このプロジェクトのテクノロジースタックは十分に基本的であり、初心者のデータ分析と視覚化プロジェクトに非常に適しているはずです。基本的に、Pythonを理解し、クローラー、ネットワーク、HTMLなどの基本的な知識を持っている限り、それを達成できます。
新規コロナウイルス肺炎(「新しいコロナウイルス肺炎」と呼ばれるcovid-19)の流行は、世界中の多くの国々を激怒させています。 2020年3月11日、世界保健機関(WHO)は、新しいコロナウイルス肺炎を世界のパンデミックとしてリストすると公式に発表しました。
新しいコロナウイルスの流行と世界的に戦う過程で、前例のない大規模な流行データが生成されています。ビッグデータ分析のテクノロジーと方法は、ウイルス感染源の発見、流行の発達を監視し、救助材料の割り当てを行い、流行の予防と制御作業をより適切に実行するのに役立ちます。ビッグデータ分析の重要な部分として、空間データ分析は、インテリジェントなデータ処理、直感的なディスプレイ、インタラクティブな分析を有機的に組み合わせて、マシンインテリジェンスとヒューマンインテリジェンスが互いの利点に深く統合され、補完的であり、流行予防とコントロールにおける分析、コマンド、意思決定のための効果的な基盤とガイドを提供します。
このプロジェクトは、インタラクティブな空間データ分析テクノロジーを使用し、Flask + PyeChartsを使用して、新しいクラウン肺炎の流行データを視覚化および視覚化するためのシンプルなインタラクティブ分析プラットフォームを構築し、流行の開発動向と重要なノードを認識し、予測し、社会メディアトピックと感情の動的進化を分析し、社会的世論の状況を実現することを望んでいます。
プロジェクト分析レポートはWebページに展開されています。http://covid.yunwei123.tech/をクリックして表示できます。
インタラクティブな視覚分析レポートのスクリーンショット:





データセット
中国、自治体、自治地域、中国の特別な管理地域からの中国_provincedata.csv流行データ
CountryData.CSV世界中の214か国と地域からの流行データとダイアモンドプリンセスクルーズ船
ncov_900k_train.unlabled.csv
データセットは、「新しいコロナウイルス肺炎」に関連する230のテーマキーワードに基づいてデータを収集し、2020年1月1日から2020年2月20日までに合計100万個のWeiboデータをキャプチャし、100,000を手動でマークします。注釈は、1(陽性)、0(ニュートラル)、および-1(負)の3つのカテゴリに分割されます。
ncov_100k_train.labled.csvは上記と同じで、マークされています
元のデータセットは見つからないため、現在は処理されたファイルのみが
ncov_10k_test.csv上記と同じ
YQKX_DATA-5_21.CSV 100人の毎日の流行ニュースは、クローラーを使用して入手しました
中国社会組織_表現予防とコントロール-5_21.csv中国社会組織公共サービスプラットフォーム流行防止および制御ゾーンニュース
weibocomments-5_21.csv 5.21 weiboと「流行との戦い」というテーマの下でデータをコメントする
分析に使用されるノートブック
myscripts pythonスクリプト(クローラー、視覚化、データ処理など)
テンプレート:WebサイトHTML/CSS/JSおよび画像ファイル
index.md:ウェブサイトのマークダウンバージョン
server.py:フラスコアプリ
新しいコロナウイルス肺炎のタイミングデータのための予測アルゴリズムの設計。Docx
Dockerを使用してください:
docker build -t covidvisimage .
docker run -d --name covidvis -p 5000:5000 covidvisimage
または:
pip3 install -r requirements.txt
python3 server.py
注:ここで使用されるPyeChartsバージョンは1.7.1です。これは、後続のバージョン1.8以降と部分的に互換性がない場合があります。次のコマンドを介してインストールできます。
ピップインストールpyecharts == 1.7.1