おそらく最初の疑問は、どのゲノムがSARS-CoV-2ウイルスに対して読まれているかでしょう。
SPARQL sparql/genomes.rq (実行, 編集)
SELECT ?genome WHERE {
wd:Q82069695 wdt:P527/wdt:P6800 ?genome .
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
}
このクエリで、これらのゲノムのURLが得られます。
genome |
https://gisaid.org/CoV2020 |
https://www.ncbi.nlm.nih.gov/assembly/GCF_009858895.2 |
https://www.ncbi.nlm.nih.gov/genome/86693 |
https://www.ncbi.nlm.nih.gov/nuccore/1798174254 |
SARS-CoV-2のRNAは配列が得られているので、ORFが知られ、そして同定されています。Wikidataに収められている遺伝子の情報は以下のクエリで得られます。
SPARQL sparql/virusGenes.rq (実行, 編集)
SELECT ?gene ?geneLabel ?ncbigene WHERE {
?gene wdt:P703 wd:Q82069695 ; wdt:P31 wd:Q7187 .
OPTIONAL { ?gene wdt:P351 ?ncbigene }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
}
以下の結果が得られます。
あるいは、コロナウイルスのタンパク質に興味があるかもしれません。その場合は次のクエリで取得できます。
SPARQL sparql/virusProteins.rq (実行, 編集)
SELECT ?protein ?proteinLabel ?short ?refseq ?uniprot ?guideToPharma WHERE {
?protein wdt:P703 wd:Q82069695 ; wdt:P31 wd:Q8054 .
OPTIONAL { ?protein wdt:P637 ?refseq }
OPTIONAL { ?protein wdt:P352 ?uniprot }
OPTIONAL { ?protein wdt:P5458 ?guideToPharma }
OPTIONAL { ?protein wdt:P1813 ?short }
SERVICE wikibase:label { bd:serviceParam wikibase:language "en,en". }
} ORDER BY ASC(?protein) ASC(?uniprot)
これらのタンパク質が得られます。
オンラインで開催された2020年4月のBioHackathonに参加したチームによる作業のおかげで、Complex Portal [1]から得られる高分子の構造がWikidataに収められました。
SPARQL sparql/complexes.rq (実行, 編集)
SELECT ?cpx ?complex ?complexLabel WHERE {
?complex wdt:P7718 ?cpx ;
wdt:P703 wd:Q82069695
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
}
これらの複合体をリストアップします。
SPARQL sparql/virusProteinsPDB.rq (実行, 編集)
SELECT ?protein ?proteinLabel ?refseq ?uniprot ?pdb WHERE {
?protein wdt:P703 wd:Q82069695 ; wdt:P31 wd:Q8054 .
?protein wdt:P638 ?pdb .
OPTIONAL { ?protein wdt:P637 ?refseq }
OPTIONAL { ?protein wdt:P352 ?uniprot }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
}
以下の結果が得られます。
上記のクエリとよく似ていますが、全てのSARSrウイルスの全遺伝子と全タンパク質を次のクエリにより取得できます。
以下のクエリで全ての遺伝子が得られます。
SPARQL sparql/virusGenesSARSr.rq (実行, 編集)
SELECT ?virus ?virusLabel ?gene ?geneLabel ?ncbigene WHERE {
VALUES ?virus {
wd:Q16000326 # SL-CoV-WIV1
wd:Q88162038 # Bat SARS coronavirus Rp1
wd:Q85939995 # SHC014-CoV
wd:Q82069695 # SARS-CoV-2
wd:Q34967815 # SARS coronavirus
wd:Q85438966 # severe acute respiratory syndrome coronavirus
wd:Q278567 # SARSr-CoV / SARS-CoV
}
?gene wdt:P703 ?virus ; wdt:P31 wd:Q7187 .
OPTIONAL { ?gene wdt:P351 ?ncbigene }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
}
以下の結果が得られます。
以下のクエリで全てのタンパク質が得られます。
SPARQL sparql/virusProteinsSARSr.rq (実行, 編集)
SELECT ?virus ?virusLabel ?protein ?proteinLabel ?refseq ?uniprot WHERE {
VALUES ?virus {
wd:Q16000326 # SL-CoV-WIV1
wd:Q88162038 # Bat SARS coronavirus Rp1
wd:Q85939995 # SHC014-CoV
wd:Q82069695 # SARS-CoV-2
wd:Q34967815 # SARS coronavirus
wd:Q85438966 # severe acute respiratory syndrome coronavirus
wd:Q278567 # SARSr-CoV / SARS-CoV
}
?protein wdt:P703 ?virus ; wdt:P31 wd:Q8054 .
OPTIONAL { ?protein wdt:P637 ?refseq }
OPTIONAL { ?protein wdt:P352 ?uniprot }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
} ORDER BY ASC(?virus) ASC(?protein)
結果は以下の通りです。
上記のクエリとよく似ていますが、全ての遺伝子とタンパク質を次のクエリにより取得できます。
以下のクエリで全ての遺伝子が得られます。
SPARQL sparql/virusGenesAll.rq (実行, 編集)
SELECT ?virus ?virusLabel ?gene ?geneLabel ?ncbigene WHERE {
VALUES ?virus {
wd:Q82069695 # SARS-CoV-2
wd:Q16983360 # HKU1
wd:Q16991954 # OC43
wd:Q8351095 # NL63
wd:Q16983356 # 229E
wd:Q4902157 # MERS-CoV
wd:Q278567 # SARS-CoV
}
?gene wdt:P703 ?virus ; wdt:P31 wd:Q7187 .
OPTIONAL { ?gene wdt:P351 ?ncbigene }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
} ORDER BY ?virus ?ncbigene ?gene
結果は以下の通りです。
以下のクエリで全てのタンパク質が得られます。
SPARQL sparql/virusProteinsAll.rq (実行, 編集)
SELECT ?virus ?virusLabel ?protein ?proteinLabel ?refseq ?uniprot WHERE {
VALUES ?virus {
wd:Q82069695 # SARS-CoV-2
wd:Q16983360 # HKU1
wd:Q16991954 # OC43
wd:Q8351095 # NL63
wd:Q16983356 # 229E
wd:Q4902157 # MERS-CoV
wd:Q278567 # SARS-CoV
}
?protein wdt:P703 ?virus ; wdt:P31 wd:Q8054 .
OPTIONAL { ?protein wdt:P637 ?refseq }
OPTIONAL { ?protein wdt:P352 ?uniprot }
SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
} ORDER BY ?virus
結果は以下の通りです。