Modi group

import pandas as pd
from katlas.data import *

Downloaded from Modi et al.,

group = pd.read_excel('raw/modi_group_41598_2019_56499_MOESM5_ESM.xlsx')
dup = group[group['5_Uni_acc'].duplicated(keep=False)]
# dup.to_csv('test.csv',index=False)
group=group[~group['5_Uni_acc'].duplicated(keep=False)]
info=Data.get_kinase_info()
info
kinase ID_coral uniprot ID_HGNC group family subfamily_coral subfamily in_ST_paper in_Tyr_paper ... cytosol cytoskeleton plasma membrane mitochondrion Golgi apparatus endoplasmic reticulum vesicle centrosome aggresome main_location
0 AAK1 AAK1 Q2M2I8 AAK1 Other NAK NaN NAK 1 0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 ABL1 ABL1 P00519 ABL1 TK Abl NaN Abl 0 1 ... 6.0 NaN 4.0 NaN NaN NaN NaN NaN NaN cytosol
2 ABL2 ABL2 P42684 ABL2 TK Abl NaN Abl 0 1 ... 4.0 6.0 NaN NaN NaN NaN NaN NaN NaN cytoskeleton
3 TNK2 ACK Q07912 TNK2 TK Ack NaN Ack 0 1 ... NaN NaN NaN NaN NaN NaN 8.0 NaN 2.0 vesicle
4 ACVR2A ACTR2 P27037 ACVR2A TKL STKR STKR2 STKR2 1 0 ... 5.0 NaN NaN NaN NaN 5.0 NaN NaN NaN cytosol
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
518 YSK1 YSK1 O00506 STK25 STE STE20 YSK YSK 1 0 ... 6.0 NaN NaN NaN 4.0 NaN NaN NaN NaN cytosol
519 ZAK ZAK Q9NYL2 MAP3K20 TKL MLK ZAK ZAK 1 0 ... 5.0 NaN NaN NaN NaN NaN NaN NaN NaN nucleus
520 ZAP70 ZAP70 P43403 ZAP70 TK Syk NaN Syk 0 1 ... 5.0 NaN 2.0 NaN NaN NaN NaN NaN NaN cytosol
521 EEF2K eEF2K O00418 EEF2K Atypical Alpha eEF2K eEF2K 1 0 ... 9.0 NaN 1.0 NaN NaN NaN NaN NaN NaN cytosol
522 FAM20C FAM20C Q8IXL6 FAM20C Atypical FAM20C NaN FAM20C 1 0 ... 2.0 NaN NaN NaN 7.0 1.0 NaN NaN NaN Golgi apparatus

523 rows × 30 columns

group
1_Group 2_Gene 3_HGNC 4_Uni_entry 5_Uni_acc 6_Domain_begin 7_Domain_end 8_Domain_length 9_Largest_insert_length 10_PDB_validation 11_Conformational_state 12_Dihedral_state 13_Group_in_Uni 14_Group_in_Manning 15_Synonymn
0 OTHER AAK1 HGNC:19679 AAK1_HUMAN Q2M2I8 46 313 268 11 4WSQB DFGin BLAminus OTHER OTHER KIAA1048
1 TYR AATK HGNC:21 LMTK1_HUMAN Q6ZMQ8 125 397 273 15 NaN NaN NaN TYR TYR AATYK,KIAA0641,LMR1,LMTK1
2 TYR ABL1 HGNC:76 ABL1_HUMAN P00519 242 495 254 10 4TWPB DFGin BLAminus TYR TYR ABL,JTK7
3 TYR ABL2 HGNC:77 ABL2_HUMAN P42684 288 541 254 10 2XYNC DFGin BLAminus TYR TYR ABLL,ARG
4 TKL ACVR1 HGNC:171 ACVR1_HUMAN Q04771 208 497 290 16 6GIPA DFGin BLAminus TKL TKL ACVRLK2
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
492 OTHER WNK2 HGNC:14542 WNK2_HUMAN Q9Y3S1 194 453 260 11 NaN NaN NaN OTHER OTHER KIAA1760,PRKWNK2,SDCCAG43
493 OTHER WNK3 HGNC:14543 WNK3_HUMAN Q9BYP7 146 405 260 11 5O21B DFGin BLAminus OTHER OTHER KIAA1566,PRKWNK3
494 OTHER WNK4 HGNC:14544 WNK4_HUMAN Q96J92 173 432 260 11 NaN NaN NaN OTHER OTHER PRKWNK4
495 TYR YES1 HGNC:12841 YES_HUMAN P07947 277 528 252 10 NaN NaN NaN TYR TYR YES
496 TYR ZAP70 HGNC:12858 ZAP70_HUMAN P43403 337 595 259 10 1U59A DFGin BLAminus TYR TYR SRK

471 rows × 15 columns

group = group[['1_Group','2_Gene','5_Uni_acc']]
group.columns=['modi_group','modi_gene','uniprot']
group_id = group.set_index('uniprot')['modi_group']
info.uniprot.isin(group_id.index).sum()
465
info['modi_group']=info.uniprot.map(group_id)
reorder=['kinase', 'ID_coral', 'uniprot', 'ID_HGNC', 'modi_group', 'group', 'family',
       'subfamily_coral', 'subfamily', 'in_ST_paper', 'in_Tyr_paper',
       'in_cddm', 'pseudo', 'pspa_category_small', 'pspa_category_big',
       'cddm_big', 'cddm_small', 'length', 'human_uniprot_sequence',
       'kinasecom_domain', 'nucleus', 'cytosol', 'cytoskeleton',
       'plasma membrane', 'mitochondrion', 'Golgi apparatus',
       'endoplasmic reticulum', 'vesicle', 'centrosome', 'aggresome',
       'main_location']
info = info[reorder]
# info.to_csv('out/kinase_info_modi.csv',index=False)

Get the dup ‘test.csv’ matched manually

Add atypical group, change OTHER to Other

Kinase in modi group but not in kinome tree:

group[~group.uniprot.isin(info.uniprot)]
modi_group modi_gene uniprot
51 CMGC CDK11A Q9UQ88
94 CMGC CSNK2A3 Q8NEV1
307 OTHER PAN3 Q58A45
314 AGC PDPK2P Q6A1A2
316 OTHER PEAK3 Q6ZS72
333 CAMK PLK5 Q496M5
406 CAMK SIK1B A0A0B4J2F2
group_id
uniprot
Q2M2I8    OTHER
Q6ZMQ8      TYR
P00519      TYR
P42684      TYR
Q04771      TKL
          ...  
Q9Y3S1    OTHER
Q9BYP7    OTHER
Q96J92    OTHER
P07947      TYR
P43403      TYR
Name: modi_group, Length: 471, dtype: object
info.merge(group_id.reset_index(),'left')
kinase ID_coral uniprot ID_HGNC group family subfamily_coral subfamily in_ST_paper in_Tyr_paper ... cytoskeleton plasma membrane mitochondrion Golgi apparatus endoplasmic reticulum vesicle centrosome aggresome main_location modi_group
0 AAK1 AAK1 Q2M2I8 AAK1 Other NAK NaN NAK 1 0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN OTHER
1 ABL1 ABL1 P00519 ABL1 TK Abl NaN Abl 0 1 ... NaN 4.0 NaN NaN NaN NaN NaN NaN cytosol TYR
2 ABL2 ABL2 P42684 ABL2 TK Abl NaN Abl 0 1 ... 6.0 NaN NaN NaN NaN NaN NaN NaN cytoskeleton TYR
3 TNK2 ACK Q07912 TNK2 TK Ack NaN Ack 0 1 ... NaN NaN NaN NaN NaN 8.0 NaN 2.0 vesicle TYR
4 ACVR2A ACTR2 P27037 ACVR2A TKL STKR STKR2 STKR2 1 0 ... NaN NaN NaN NaN 5.0 NaN NaN NaN cytosol TKL
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
518 YSK1 YSK1 O00506 STK25 STE STE20 YSK YSK 1 0 ... NaN NaN NaN 4.0 NaN NaN NaN NaN cytosol STE
519 ZAK ZAK Q9NYL2 MAP3K20 TKL MLK ZAK ZAK 1 0 ... NaN NaN NaN NaN NaN NaN NaN NaN nucleus TKL
520 ZAP70 ZAP70 P43403 ZAP70 TK Syk NaN Syk 0 1 ... NaN 2.0 NaN NaN NaN NaN NaN NaN cytosol TYR
521 EEF2K eEF2K O00418 EEF2K Atypical Alpha eEF2K eEF2K 1 0 ... NaN 1.0 NaN NaN NaN NaN NaN NaN cytosol NaN
522 FAM20C FAM20C Q8IXL6 FAM20C Atypical FAM20C NaN FAM20C 1 0 ... NaN NaN NaN 7.0 1.0 NaN NaN NaN Golgi apparatus NaN

523 rows × 31 columns