
Virheat是将VCF视为热图和将突变的图像可视化到各自基因的工具。
曾经想在将原始读物映射到病毒/细菌参考基因组之后,对变体频率进行凝结,并同时比较多个VCF文件?比Virheat适合您。您不仅可以看到热图,而且可以在GFF3文件中读取,该文件使您可以显示具有突变的基因。这个轻巧的脚本的灵感来自Snipit和我的变体频率图,获得了两者的最佳可视化功能。

--scores 
pip install virheatconda install -c bioconda virheatgit clone https://github.com/jonas-fuchs/virHEAT
cd virHEAT
pip install -r requirements.txt
# or
pip install .就是这样。检查是否有效:
virheat -v您应该看到当前的Virheat版本。
usage: virheat < folder containing vcfs > < output dir > -l or -g [additional arguments]
参数:
positional arguments:
input folder containing input files and output folder
options:
-h, --help show this help message and exit
-r ref_id, --reference ref_id
reference identifier
--name virHEAT_plot.pdf
plot name and file type (pdf, png, svg, jpg). Default: virHEAT_plot.pdf
-l None, --genome-length None
length of the genome (needed if gff3 is not provided)
-g None, --gff3-path None
path to gff3 (needed if length is not provided)
-a [gene ...], --gff3-annotations [gene ...]
annotations to display from gff3 file (standard: gene). Multiple possible.
--gene-arrows, --no-gene-arrows
show genes in arrow format (only if the -g argument is provided) (default: False)
-t 0, --threshold 0 display frequencies above this threshold (0-1)
--delete, --no-delete
delete mutations that are present in all samples and their maximum frequency divergence is smaller than 0.5 (default: True)
-n None, --delete-n None
do not show mutations that occur n times or less (default: Do not delete)
-z start stop, --zoom start stop
restrict the plot to a specific genomic region.
--sort, --no-sort sort sample names alphanumerically (default: False)
--min-cov 20 display mutations covered at least x time (only if per base cov tsv files are provided)
-s scores_file pos_col score_col score_name, --scores scores_file pos_col score_col score_name
specify scores to be added to the plot by providing a CSV file containing scores, along with its column for amino-acid positions, its column for scores, and descriptive score names (e.g., expression, binding, antibody escape, etc.).
This option can be used multiple times to include multiple sets of scores.
-v, --version show program's version number and exit
您需要提供参考基因组的长度,或者如果要获取序列注释,则需要提供GFF3文件。
此外,您还可以分析是否充分覆盖突变并以灰色显示未覆盖的细胞。为此,首先使用QualiMap为每个BAM文件创建每个基本覆盖范围TSV文件,并将其与VCF文件相同的文件夹提供。给他们与VCF文件相同的名称。
此外,还有一个选项可以包括额外分数的可视化(例如,结合亲和力的MAVE分数,表达水平,抗体逃逸等)映射到热图上的突变。要使用此功能,请使用-s或-scores参数,并提供以下参数:1)包含分数的CSV文件的路径; 2)该文件中包含经典符号中的突变位置的列的名称(例如,T430Y); 3)该文件中包含分数本身的列的名称; 4)描述性得分名称将用作图中的标签。可以通过重复具有不同参数的-s或得分选项同时包含多个分数集。例如,输入和可能的输出数据,请参阅示例_data/example_mave_data文件夹中的文件。
重要免责声明:该代码属于GPLV3许可证。该代码没有任何保修;即使没有对特定目的的适销性或适合性的隐含保证。该程序是免费的软件:您可以根据自由软件基金会发布的GNU通用公共许可证的条款对其进行重新分配和/或修改它,该版本是该许可证的版本3,或(按您的选项)任何以后的版本。