Bug category solved

luglilab · luglilab · commit 56e48ddbd050 · 2022-02-08T18:34:02.000+01:00
diff --git a/PhenoFunctions_v4.py b/PhenoFunctions_v4.py
@@ -10,16 +10,17 @@
 import umap
 import logging
 from flowsom import flowsom as flowsom
+import seaborn as sb
 import tempfile
+import matplotlib
+matplotlib.use('Agg')
 import matplotlib.pyplot as plt
 tmp = tempfile.NamedTemporaryFile()
 sc.settings.autoshow = False
 sc.settings.set_figure_params(dpi=300, facecolor='white',
                               figsize=(10, 10))
 sc.settings.verbosity = 0
 warnings.filterwarnings("ignore", category=FutureWarning)
-import matplotlib
-matplotlib.use('Agg')
 
 
 class Cytophenograph:
@@ -46,9 +47,10 @@ def __init__(self, info_file, input_folder, output_folder, k_coef, marker_list,
         self.marker_array = None
         self.anndata_list = []
         self.outfig = None
-        self.fileformat = "pdf"
+        self.fileformat = "pdf" # insert svg to change figure format
         self.log = logging.getLogger()
         self.log.setLevel(logging.INFO)
+        self.dpi = 100
         format = logging.Formatter("%(asctime)s %(threadName)-11s %(levelname)-10s %(message)s")
         #
         ch = logging.StreamHandler(sys.stdout)
@@ -129,40 +131,36 @@ def concatenate_dataframe(self,info_file, csv_list):
                 for df in pandas_df_list]):
                     try:
                         for i in range(len(pandas_df_list)):
-                            # print(pandas_df_list[i].index[0][:-2]) sample id derivated
                             # save column with Sample name in list
                             Sample_list = info_file["Sample"].tolist()
                             # check if Sample name are in the anndata index
                             if pandas_df_list[i].index[0][:-2] in Sample_list:
                                 ann_tmp = anndata.AnnData(pandas_df_list[i])
                                 ann_tmp.obs['Sample'] = pandas_df_list[i].index[0][:-2]
                                 #
-                                cell_type = info_file['Cell_type'].loc[info_file['Sample']== pandas_df_list[i].index[0][:-2]]
-                                # ann_tmp.obs['Cell_type'] = cell_type.to_string().split(" ")[-1]
-                                ann_tmp.obs['Cell_type'] = ''.join(e for e in cell_type.to_string() if e.isalnum())
+                                cell_type = info_file['Cell_type'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
+                                ann_tmp.obs['Cell_type'] = ''.join(e for e in cell_type.to_string().split(" ")[-1] if e.isalnum())
                                 #
-                                exp = info_file['EXP'].loc[info_file['Sample']== pandas_df_list[i].index[0][:-2]]
-                                # ann_tmp.obs['EXP'] = exp.to_string().split(" ")[-1]
-                                ann_tmp.obs['EXP'] = ''.join(e for e in exp.to_string() if e.isalnum())
+                                exp = info_file['EXP'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
+                                ann_tmp.obs['EXP'] = ''.join(e for e in exp.to_string().split(" ")[-1] if e.isalnum())
                                 #
-                                id = info_file['ID'].loc[info_file['Sample']== pandas_df_list[i].index[0][:-2]]
-                                # ann_tmp.obs['ID'] = id.to_string().split(" ")[-1]
-                                ann_tmp.obs['ID'] = ''.join(e for e in id.to_string() if e.isalnum())
+                                id = info_file['ID'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
+                                ann_tmp.obs['ID'] = ''.join(e for e in id.to_string().split(" ")[-1] if e.isalnum())
                                 #
                                 time_point = info_file['Time_point'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
-                                ann_tmp.obs['Time_point'] = time_point.to_string().split(" ")[-1]
-                                ann_tmp.obs['Time_point'] = ''.join(e for e in time_point.to_string() if e.isalnum())
+                                #ann_tmp.obs['Time_point'] = time_point.to_string().split(" ")[-1]
+                                ann_tmp.obs['Time_point'] = ''.join(e for e in time_point.to_string().split(" ")[-1] if e.isalnum())
                                 #
+
                                 condition = info_file['Condition'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
-                                # ann_tmp.obs['Condition'] = condition.to_string().split(" ")[-1]
-                                ann_tmp.obs['Condition'] = ''.join(e for e in condition.to_string() if e.isalnum())
+                                ann_tmp.obs['Condition'] = ''.join(e for e in condition.to_string().split(" ")[-1] if e.isalnum())
                                 #
                                 count = info_file['Count'].loc[info_file['Sample'] == pandas_df_list[i].index[0][:-2]]
-                                # ann_tmp.obs['Count'] = count.to_string().split(" ")[-1]
-                                ann_tmp.obs['Count'] = ''.join(e for e in count.to_string() if e.isalnum())
+                                ann_tmp.obs['Count'] = ''.join(e for e in count.to_string().split(" ")[-1] if e.isalnum())
                                 self.anndata_list.append(ann_tmp)
                             else:
-                                self.log.error("Error, this file {0} is not in the column Sample of Infofile. \n Please check sample name and Infofile".format(pandas_df_list[i].index[0][:-2]))
+                                self.log.error("Error, this file {0} is not in the column Sample of Infofile. "
+                                               "\n Please check sample name and Infofile".format(pandas_df_list[i].index[0][:-2]))
                                 sys.exit(1)
                         tmp = self.anndata_list[0]
                         self.anndata_list.pop(0)
@@ -172,11 +170,12 @@ def concatenate_dataframe(self,info_file, csv_list):
                         else:
                             self.adata = tmp.concatenate(self.anndata_list)
                             self.adata.layers['raw_value'] = self.adata.X
-                    except (ValueError, Exception):
+                    except Exception as e:
                         self.log.error("Error. Please check Info File Header or CSV header.")
+                        self.log.error("Exception - {0}\n".format(str(e)))
                         sys.exit(1)
         else:
-            self.log.error("Error. Please check Info File Header or CSV header.")
+            self.log.error("Error. Please check Info File Header or CSV header.", exc_info=True)
             sys.exit(1)
         self.tmp_df = pd.DataFrame(self.adata.X, index=self.adata.obs.index)
         self.tmp_df.columns = self.adata.var_names
@@ -250,10 +249,6 @@ def plot_umap(self):
                    palette=self.palette, legend_fontoutline=2, show=False, add_outline=False, frameon=False,
                    legend_loc='on data', title="UMAP Plot",return_fig=False,
                    s=50, save="_legend_on_data.".join(["".join([str(self.tool), "_cluster"]), self.fileformat]))
-        sc.pl.umap(self.adata_subset, color="pheno_leiden",
-                   palette=self.palette, legend_fontoutline=2, show=False, add_outline=False, frameon=False,
-                   legend_loc='on data', title="UMAP Plot",return_fig=False,
-                   s=50, save="_legend_on_data.".join(["".join([str(self.tool), "_cluster"]), 'svg']))
         sc.pl.correlation_matrix(self.adata_subset, "pheno_leiden", show=False,
                                  save=".".join([self.tool, self.fileformat]))
         for _ in list(self.adata_subset.var_names.unique()):
@@ -272,17 +267,29 @@ def matrixplot(self):
                          dendrogram=True, vmin=-2, vmax=2, cmap='RdBu_r', layer="scaled",
                          show=False, swap_axes=False, return_fig=False,
                          save=".".join(["matrixplot_mean_z_score", self.fileformat]))
-        sc.pl.matrixplot(self.adata_subset, list(self.adata_subset.var_names), "pheno_leiden",
-                         dendrogram=True, vmin=-2, vmax=2, cmap='RdBu_r', layer="scaled",
-                         show=False, swap_axes=False, return_fig=False,
-                         save=".".join(["matrixplot_mean_z_score", 'svg']))
         sc.pl.matrixplot(self.adata_subset, list(self.adata_subset.var_names), "pheno_leiden",
                          dendrogram=True, cmap='Blues', standard_scale='var',
                          colorbar_title='column scaled\nexpression', layer="scaled",
                          swap_axes=False, return_fig=False,
                          show=False,
                          save=".".join(["matrixplot_column_scaled_expression", self.fileformat]))
 
+    def plotdist(self):
+        """
+        Plot histogram and scatter
+        Returns:
+        """
+        ax = self.adata.to_df().hist(bins=25, figsize=(20, 15))
+        fig = ax.get_figure()
+        fig.savefig("/".join([self.outfig,".".join(["MarkerHistograms",self.fileformat])]),
+                    dpi=self.dpi, bbox_inches='tight', facecolor='white', trasparent=True,
+                    format=self.fileformat)
+            # ax = sb.pairplot(self.adata.to_df(), plot_kws={'alpha': 0.3})
+            # ax.fig.set_size_inches(20,20)
+            # ax.savefig("/".join([self.outfig, "MarkerPairPlot.pdf"]),
+            #             dpi=self.dpi, bbox_inches='tight',facecolor='white',trasparent=True,
+            #             format=self.fileformat)
+
     def plot_frequency(self):
         """
 
@@ -296,16 +303,9 @@ def plot_frequency(self):
         ax1.set_ylabel("Cluster")
         ax1.grid(False)
         ax1.legend(bbox_to_anchor=(1.2, 1.0))
-        if self.fileformat == "pdf":
-            fig.savefig("/".join([self.outfig, "ClusterFrequencyNormalized.pdf"]),
-                        dpi=100, bbox_inches='tight',
-                        format=self.fileformat)
-            fig.savefig("/".join([self.outfig, "ClusterFrequencyNormalized.svg"]),
-                        dpi=100, bbox_inches='tight',
-                        format='svg')
-        else:
-            fig.savefig("/".join([self.outfig, "ClusterFrequencyNormalized.svg"]),
-                        dpi=fig.dpi, bbox_inches='tight',format=self.fileformat)
+        fig.savefig("/".join([self.outfig, ".".join(["ClusterFrequencyNormalized", self.fileformat])]),
+                    dpi=self.dpi, bbox_inches='tight',
+                    format=self.fileformat)
         fig, (ax2) = plt.subplots(1, 1, figsize=(17 / 2.54, 17 / 2.54))
         ax2 = self.adata_subset.obs.groupby("pheno_leiden")["Sample"].value_counts(normalize=False).unstack().plot.barh(stacked=True,
                                                                                                            legend=False,
@@ -315,13 +315,8 @@ def plot_frequency(self):
         ax2.set_ylabel("Cluster")
         ax2.grid(False)
         ax2.legend(bbox_to_anchor=(1.2, 1.0))
-        if self.fileformat == "pdf":
-            fig.savefig("/".join([self.outfig, "ClusterFrequencyNotNormalized.pdf"]),
-                    dpi=fig.dpi, bbox_inches='tight',
-                    format=self.fileformat)
-        else:
-            fig.savefig("/".join([self.outfig, "ClusterFrequencyNotNormalized.svg"]),
-                    dpi=fig.dpi, bbox_inches='tight',
+        fig.savefig("/".join([self.outfig, ".".join(["ClusterFrequencyNotNormalized", self.fileformat])]),
+                    dpi=self.dpi, bbox_inches='tight',
                     format=self.fileformat)
 
     def runphenograph(self):
@@ -331,7 +326,8 @@ def runphenograph(self):
         """
         self.log.info("Part2: Phenograph Clustering")
         self.log.info("Markers used for Phenograph clustering:")
-        self.adata_subset = self.adata[:, self.markertoinclude].copy()
+        self.adata_subset = self.adata[:,
+                            self.markertoinclude].copy()
         self.log.info(self.adata_subset.var_names)
         self.log.info("Markers excluded for Phenograph clustering:")
         self.log.info(self.marker_array)
@@ -351,10 +347,11 @@ def runphenograph(self):
         self.embedding = self.runumap()
         self.adata.obsm['X_umap'] = self.embedding
         self.adata_subset.obsm['X_umap'] = self.embedding
-        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names, index=self.adata.obs.index)
+        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names)
         self.tmp_df['UMAP_1'] = self.embedding[:, 0]
         self.tmp_df['UMAP_2'] = self.embedding[:, 1]
-        self.tmp_df['Cluster_Phenograph'] = pd.DataFrame(self.adata.obs['Phenograph_cluster'])
+        self.tmp_df['Cluster_Phenograph'] = self.adata_subset.obs['pheno_leiden']
+        # self.plotdist()
         self.plot_umap()
         self.plot_frequency()
         self.matrixplot()
@@ -389,10 +386,11 @@ def runparc(self):
         self.embedding = self.runumap()
         self.adata.obsm['X_umap'] = self.embedding
         self.adata_subset.obsm['X_umap'] = self.embedding
-        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names, index=self.adata.obs.index)
+        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names)
         self.tmp_df['UMAP_1'] = self.embedding[:, 0]
         self.tmp_df['UMAP_2'] = self.embedding[:, 1]
-        self.tmp_df['Cluster_Parc'] = pd.DataFrame(self.adata.obs['Parc_cluster'])
+        self.tmp_df['Cluster_Parc'] = self.adata_subset.obs['pheno_leiden']
+        # self.plotdist()
         self.plot_umap()
         self.plot_frequency()
         self.matrixplot()
@@ -447,10 +445,13 @@ def runflowsom(self):
         self.embedding = self.runumap()
         self.adata.obsm['X_umap'] = self.embedding
         self.adata_subset.obsm['X_umap'] = self.embedding
-        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names, index=self.adata.obs.index)
+        self.embedding = self.runumap()
+        self.adata.obsm['X_umap'] = self.embedding
+        self.adata_subset.obsm['X_umap'] = self.embedding
+        self.tmp_df = pd.DataFrame(self.adata.X, columns=self.adata.var_names)
         self.tmp_df['UMAP_1'] = self.embedding[:, 0]
         self.tmp_df['UMAP_2'] = self.embedding[:, 1]
-        self.tmp_df['Cluster_Flowsom'] = pd.DataFrame(self.adata.obs['Cluster_Flowsom'])
+        # self.plotdist()
         self.plot_umap()
         self.plot_frequency()
         self.matrixplot()