import pandas as pd
from katlas.data import *
Modi group
Downloaded from Modi et al.,
= pd.read_excel('raw/modi_group_41598_2019_56499_MOESM5_ESM.xlsx') group
= group[group['5_Uni_acc'].duplicated(keep=False)] dup
# dup.to_csv('test.csv',index=False)
=group[~group['5_Uni_acc'].duplicated(keep=False)] group
=Data.get_kinase_info() info
info
kinase | ID_coral | uniprot | ID_HGNC | group | family | subfamily_coral | subfamily | in_ST_paper | in_Tyr_paper | ... | cytosol | cytoskeleton | plasma membrane | mitochondrion | Golgi apparatus | endoplasmic reticulum | vesicle | centrosome | aggresome | main_location | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | AAK1 | AAK1 | Q2M2I8 | AAK1 | Other | NAK | NaN | NAK | 1 | 0 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1 | ABL1 | ABL1 | P00519 | ABL1 | TK | Abl | NaN | Abl | 0 | 1 | ... | 6.0 | NaN | 4.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol |
2 | ABL2 | ABL2 | P42684 | ABL2 | TK | Abl | NaN | Abl | 0 | 1 | ... | 4.0 | 6.0 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | cytoskeleton |
3 | TNK2 | ACK | Q07912 | TNK2 | TK | Ack | NaN | Ack | 0 | 1 | ... | NaN | NaN | NaN | NaN | NaN | NaN | 8.0 | NaN | 2.0 | vesicle |
4 | ACVR2A | ACTR2 | P27037 | ACVR2A | TKL | STKR | STKR2 | STKR2 | 1 | 0 | ... | 5.0 | NaN | NaN | NaN | NaN | 5.0 | NaN | NaN | NaN | cytosol |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
518 | YSK1 | YSK1 | O00506 | STK25 | STE | STE20 | YSK | YSK | 1 | 0 | ... | 6.0 | NaN | NaN | NaN | 4.0 | NaN | NaN | NaN | NaN | cytosol |
519 | ZAK | ZAK | Q9NYL2 | MAP3K20 | TKL | MLK | ZAK | ZAK | 1 | 0 | ... | 5.0 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | nucleus |
520 | ZAP70 | ZAP70 | P43403 | ZAP70 | TK | Syk | NaN | Syk | 0 | 1 | ... | 5.0 | NaN | 2.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol |
521 | EEF2K | eEF2K | O00418 | EEF2K | Atypical | Alpha | eEF2K | eEF2K | 1 | 0 | ... | 9.0 | NaN | 1.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol |
522 | FAM20C | FAM20C | Q8IXL6 | FAM20C | Atypical | FAM20C | NaN | FAM20C | 1 | 0 | ... | 2.0 | NaN | NaN | NaN | 7.0 | 1.0 | NaN | NaN | NaN | Golgi apparatus |
523 rows × 30 columns
group
1_Group | 2_Gene | 3_HGNC | 4_Uni_entry | 5_Uni_acc | 6_Domain_begin | 7_Domain_end | 8_Domain_length | 9_Largest_insert_length | 10_PDB_validation | 11_Conformational_state | 12_Dihedral_state | 13_Group_in_Uni | 14_Group_in_Manning | 15_Synonymn | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | OTHER | AAK1 | HGNC:19679 | AAK1_HUMAN | Q2M2I8 | 46 | 313 | 268 | 11 | 4WSQB | DFGin | BLAminus | OTHER | OTHER | KIAA1048 |
1 | TYR | AATK | HGNC:21 | LMTK1_HUMAN | Q6ZMQ8 | 125 | 397 | 273 | 15 | NaN | NaN | NaN | TYR | TYR | AATYK,KIAA0641,LMR1,LMTK1 |
2 | TYR | ABL1 | HGNC:76 | ABL1_HUMAN | P00519 | 242 | 495 | 254 | 10 | 4TWPB | DFGin | BLAminus | TYR | TYR | ABL,JTK7 |
3 | TYR | ABL2 | HGNC:77 | ABL2_HUMAN | P42684 | 288 | 541 | 254 | 10 | 2XYNC | DFGin | BLAminus | TYR | TYR | ABLL,ARG |
4 | TKL | ACVR1 | HGNC:171 | ACVR1_HUMAN | Q04771 | 208 | 497 | 290 | 16 | 6GIPA | DFGin | BLAminus | TKL | TKL | ACVRLK2 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
492 | OTHER | WNK2 | HGNC:14542 | WNK2_HUMAN | Q9Y3S1 | 194 | 453 | 260 | 11 | NaN | NaN | NaN | OTHER | OTHER | KIAA1760,PRKWNK2,SDCCAG43 |
493 | OTHER | WNK3 | HGNC:14543 | WNK3_HUMAN | Q9BYP7 | 146 | 405 | 260 | 11 | 5O21B | DFGin | BLAminus | OTHER | OTHER | KIAA1566,PRKWNK3 |
494 | OTHER | WNK4 | HGNC:14544 | WNK4_HUMAN | Q96J92 | 173 | 432 | 260 | 11 | NaN | NaN | NaN | OTHER | OTHER | PRKWNK4 |
495 | TYR | YES1 | HGNC:12841 | YES_HUMAN | P07947 | 277 | 528 | 252 | 10 | NaN | NaN | NaN | TYR | TYR | YES |
496 | TYR | ZAP70 | HGNC:12858 | ZAP70_HUMAN | P43403 | 337 | 595 | 259 | 10 | 1U59A | DFGin | BLAminus | TYR | TYR | SRK |
471 rows × 15 columns
= group[['1_Group','2_Gene','5_Uni_acc']] group
=['modi_group','modi_gene','uniprot'] group.columns
= group.set_index('uniprot')['modi_group'] group_id
sum() info.uniprot.isin(group_id.index).
465
'modi_group']=info.uniprot.map(group_id) info[
=['kinase', 'ID_coral', 'uniprot', 'ID_HGNC', 'modi_group', 'group', 'family',
reorder'subfamily_coral', 'subfamily', 'in_ST_paper', 'in_Tyr_paper',
'in_cddm', 'pseudo', 'pspa_category_small', 'pspa_category_big',
'cddm_big', 'cddm_small', 'length', 'human_uniprot_sequence',
'kinasecom_domain', 'nucleus', 'cytosol', 'cytoskeleton',
'plasma membrane', 'mitochondrion', 'Golgi apparatus',
'endoplasmic reticulum', 'vesicle', 'centrosome', 'aggresome',
'main_location']
= info[reorder] info
# info.to_csv('out/kinase_info_modi.csv',index=False)
Get the dup ‘test.csv’ matched manually
Add atypical group, change OTHER to Other
Kinase in modi group but not in kinome tree:
~group.uniprot.isin(info.uniprot)] group[
modi_group | modi_gene | uniprot | |
---|---|---|---|
51 | CMGC | CDK11A | Q9UQ88 |
94 | CMGC | CSNK2A3 | Q8NEV1 |
307 | OTHER | PAN3 | Q58A45 |
314 | AGC | PDPK2P | Q6A1A2 |
316 | OTHER | PEAK3 | Q6ZS72 |
333 | CAMK | PLK5 | Q496M5 |
406 | CAMK | SIK1B | A0A0B4J2F2 |
group_id
uniprot
Q2M2I8 OTHER
Q6ZMQ8 TYR
P00519 TYR
P42684 TYR
Q04771 TKL
...
Q9Y3S1 OTHER
Q9BYP7 OTHER
Q96J92 OTHER
P07947 TYR
P43403 TYR
Name: modi_group, Length: 471, dtype: object
'left') info.merge(group_id.reset_index(),
kinase | ID_coral | uniprot | ID_HGNC | group | family | subfamily_coral | subfamily | in_ST_paper | in_Tyr_paper | ... | cytoskeleton | plasma membrane | mitochondrion | Golgi apparatus | endoplasmic reticulum | vesicle | centrosome | aggresome | main_location | modi_group | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | AAK1 | AAK1 | Q2M2I8 | AAK1 | Other | NAK | NaN | NAK | 1 | 0 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | OTHER |
1 | ABL1 | ABL1 | P00519 | ABL1 | TK | Abl | NaN | Abl | 0 | 1 | ... | NaN | 4.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol | TYR |
2 | ABL2 | ABL2 | P42684 | ABL2 | TK | Abl | NaN | Abl | 0 | 1 | ... | 6.0 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | cytoskeleton | TYR |
3 | TNK2 | ACK | Q07912 | TNK2 | TK | Ack | NaN | Ack | 0 | 1 | ... | NaN | NaN | NaN | NaN | NaN | 8.0 | NaN | 2.0 | vesicle | TYR |
4 | ACVR2A | ACTR2 | P27037 | ACVR2A | TKL | STKR | STKR2 | STKR2 | 1 | 0 | ... | NaN | NaN | NaN | NaN | 5.0 | NaN | NaN | NaN | cytosol | TKL |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
518 | YSK1 | YSK1 | O00506 | STK25 | STE | STE20 | YSK | YSK | 1 | 0 | ... | NaN | NaN | NaN | 4.0 | NaN | NaN | NaN | NaN | cytosol | STE |
519 | ZAK | ZAK | Q9NYL2 | MAP3K20 | TKL | MLK | ZAK | ZAK | 1 | 0 | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | nucleus | TKL |
520 | ZAP70 | ZAP70 | P43403 | ZAP70 | TK | Syk | NaN | Syk | 0 | 1 | ... | NaN | 2.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol | TYR |
521 | EEF2K | eEF2K | O00418 | EEF2K | Atypical | Alpha | eEF2K | eEF2K | 1 | 0 | ... | NaN | 1.0 | NaN | NaN | NaN | NaN | NaN | NaN | cytosol | NaN |
522 | FAM20C | FAM20C | Q8IXL6 | FAM20C | Atypical | FAM20C | NaN | FAM20C | 1 | 0 | ... | NaN | NaN | NaN | 7.0 | 1.0 | NaN | NaN | NaN | Golgi apparatus | NaN |
523 rows × 31 columns