added HMMER analysis, morpholog phylogenetic distribution, and additional info on table3

7f88d077 · Niko Papadopoulos · e71eca47 · 7f88d077 · 7f88d077 · 7f88d077
Commit 7f88d077 authored 2 years ago by Niko Papadopoulos
--- a/analysis/revision-morpholog_phylogenetic_distribution.ipynb
+++ b/analysis/revision-morpholog_phylogenetic_distribution.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "e4b053ea-b0c7-4884-9bae-fb9738ab86a2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "import numpy as np\n",
+    "\n",
+    "from matplotlib import pyplot as plt\n",
+    "import seaborn as sns"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "852d095d-0d68-4850-8485-ec7708b81ee0",
+   "metadata": {},
+   "source": [
+    "I figured out a way to access the entire EggNOG database - see [here](https://twitter.com/galicae/status/1608117353711124480?s=20&t=IueyawfuyEwv2D7Nb65olQ). Really wish I could have figured this out about a year ago... anyway, here goes:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "c7bb8a9a-b1b3-4b6d-925e-f41e249962d8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "eggnog = pd.read_csv(\"/Users/npapadop/Documents/data/references/eggnog/eggnog_slim.csv\", index_col=0)\n",
+    "\n",
+    "eggnog[\"taxid\"] = eggnog[\"name\"].str.split(\".\").str[0]\n",
+    "eggnog[\"eggnog_id\"] = eggnog[\"name\"].str.split(\".\").str[1]\n",
+    "eggnog.drop(columns=[\"name\"], inplace=True)\n",
+    "eggnog.reset_index(inplace=True, drop=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "dcd4ff43-60a9-45fa-9493-0eedc4727d9d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "taxid_info = pd.read_csv(\"../data/e5.taxid_info.tsv\", sep=\"\\t\", index_col=\"# Taxid\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "f276d9ba-d500-4798-a961-1a81a0275a3f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "translation = pd.read_csv(\"../data/translation\", sep=\"\\t\", header=None)\n",
+    "translation.columns = [\"name\", \"accession\", \"type\"]\n",
+    "translation[\"taxid\"] = translation[\"name\"].str.split(\".\").str[0]\n",
+    "translation[\"eggnog_id\"] = translation[\"name\"].str.split(\".\").str[1]\n",
+    "translation.drop(columns=[\"name\"], inplace=True)\n",
+    "translation.reset_index(inplace=True, drop=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "c426b885-99a4-4103-8ee8-42fd25dd78b6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def foldseek_top_hits(m8_loc):\n",
+    "    foldseek = pd.read_csv(m8_loc, sep=\"\\t\", header=None)\n",
+    "    foldseek.columns = [\"query\", \"target\", \"seq. id.\", \"alignment length\", \"no. mismatches\",\n",
+    "                       \"no. gap open\", \"query start\", \"query end\", \"target start\", \"target end\",\n",
+    "                       \"e value\", \"bit score\"]\n",
+    "    foldseek[\"query\"] = foldseek[\"query\"].str.split(\"-\").str[1]\n",
+    "    foldseek[\"target\"] = foldseek[\"target\"].str.split(\"-\").str[1]\n",
+    "\n",
+    "    in_species_hits = foldseek[\"target\"].isin(foldseek[\"query\"])\n",
+    "    foldseek = foldseek[~in_species_hits]\n",
+    "\n",
+    "    top_hits = foldseek.sort_values(\"e value\").drop_duplicates(\"query\", keep=\"first\")\n",
+    "    return top_hits"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "dce10df8-05bb-40df-9ba6-f0d08405124a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "yeast = foldseek_top_hits(\"/Users/npapadop/Documents/data/foldseek/yeast.m8\")\n",
+    "arabidopsis = foldseek_top_hits(\"/Users/npapadop/Documents/data/foldseek/arabidopsis.m8\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "92bcf06b-3da2-4034-be58-3961fff4b857",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def extract_unique_ids(df):\n",
+    "    queries = df[\"query\"].unique()\n",
+    "    targets = df[\"target\"].unique()\n",
+    "    to_translate = np.concatenate((queries, targets))\n",
+    "    return np.unique(to_translate)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "cc6e23dc-2757-4ce5-bf07-bfaf2141939a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sce_translate = extract_unique_ids(yeast)\n",
+    "ath_translate = extract_unique_ids(arabidopsis)\n",
+    "\n",
+    "to_translate = np.unique(np.concatenate((sce_translate, ath_translate)))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "beb147c5-6c5f-4447-ae38-644948baf204",
+   "metadata": {},
+   "source": [
+    "The accession IDs are not unique; it may happen that we have collisions. To avoid unnecessary drama we will just remove all duplicates."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "044b9d64-9d97-4f55-ac70-3fae5542c5db",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def map_AC_to_EggNOG(to_translate, translation, eggnog):\n",
+    "    keep_accession = np.intersect1d(to_translate, translation[\"accession\"])\n",
+    "    eggnog_ids = translation.set_index(\"accession\").loc[keep_accession][\"eggnog_id\"]\n",
+    "    eggnog_ids.drop_duplicates(keep=False, inplace=True)\n",
+    "    lexicon = pd.DataFrame(eggnog_ids).reset_index()\n",
+    "    lexicon.set_index(\"eggnog_id\", inplace=True)\n",
+    "    \n",
+    "    keep_eggnog = np.intersect1d(eggnog[\"eggnog_id\"], eggnog_ids)\n",
+    "    annotation = eggnog.set_index(\"eggnog_id\").loc[keep_eggnog]\n",
+    "    taxonomy = annotation[\"taxid\"].reset_index().drop_duplicates()\n",
+    "    taxonomy.set_index(\"eggnog_id\", inplace=True)\n",
+    "\n",
+    "    lexicon = lexicon.join(taxonomy)\n",
+    "    lexicon = lexicon.reset_index()\n",
+    "    lexicon.columns = [\"eggnog\", \"accession\", \"taxid\"]\n",
+    "    return lexicon"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "b8804d2d-6099-4125-a182-b5955039f90a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "lexicon = map_AC_to_EggNOG(to_translate, translation, eggnog)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "5b48ddd0-5fbe-4482-bec2-535f8f493b5a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def max_tax_overlap(row, x=\"query lineage\", y=\"target lineage\"):\n",
+    "    idx = 0\n",
+    "    for idx, (i, j) in enumerate(zip(row[x], row[y])):\n",
+    "        if i != j:\n",
+    "            return row[x][idx - 1]\n",
+    "    return row[x][idx]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "21cab938-8fea-4afa-b65f-38e43886e221",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_tax_id(top_hits, lexicon):\n",
+    "    top_hits = top_hits.join(lexicon.set_index(\"accession\")[\"taxid\"], on=\"query\")\n",
+    "    top_hits.columns = ['query', 'target', 'seq. id.', 'alignment length', 'no. mismatches',\n",
+    "                        'no. gap open', 'query start', 'query end', 'target start',\n",
+    "                        'target end', 'e value', 'bit score', 'query_taxid']\n",
+    "\n",
+    "    top_hits = top_hits.join(lexicon.set_index(\"accession\")[\"taxid\"], on=\"target\")\n",
+    "    top_hits.columns = ['query', 'target', 'seq. id.', 'alignment length', 'no. mismatches',\n",
+    "                        'no. gap open', 'query start', 'query end', 'target start',\n",
+    "                        'target end', 'e value', 'bit score', 'query_taxid', 'target_taxid']\n",
+    "\n",
+    "    missing = top_hits[\"query_taxid\"].isna() | top_hits[\"target_taxid\"].isna()\n",
+    "    equal = top_hits[\"query_taxid\"] == top_hits[\"target_taxid\"]\n",
+    "\n",
+    "    remove = missing | equal\n",
+    "\n",
+    "    top_hits[\"query_taxid\"].isna().sum()\n",
+    "\n",
+    "    top_hits[\"target_taxid\"].isna().sum()\n",
+    "\n",
+    "    top_hits[~remove]\n",
+    "\n",
+    "    top_hits_taxid = top_hits[~remove][[\"query_taxid\", \"target_taxid\", \"e value\"]].copy()\n",
+    "\n",
+    "    top_hits_taxid[\"query_taxid\"] = top_hits_taxid[\"query_taxid\"].astype(np.int64)\n",
+    "    top_hits_taxid[\"target_taxid\"] = top_hits_taxid[\"target_taxid\"].astype(np.int64)\n",
+    "\n",
+    "    top_hits_taxid = top_hits_taxid.join(taxid_info[\"Named Lineage\"], on=\"query_taxid\")\n",
+    "    top_hits_taxid.columns = [\"query\", \"target\", \"e value\", \"query lineage\"]\n",
+    "\n",
+    "    top_hits_taxid = top_hits_taxid.join(taxid_info[\"Named Lineage\"], on=\"target\")\n",
+    "    top_hits_taxid.columns = [\"query\", \"target\", \"e value\", \"query lineage\", \"target lineage\"]\n",
+    "\n",
+    "    top_hits_taxid[\"query lineage\"] = top_hits_taxid[\"query lineage\"].str.split(\",\")\n",
+    "    top_hits_taxid[\"target lineage\"] = top_hits_taxid[\"target lineage\"].str.split(\",\")\n",
+    "    top_hits_taxid[\"overlap\"] = top_hits_taxid.apply(max_tax_overlap, axis=1)\n",
+    "    \n",
+    "    return top_hits_taxid"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "1751cddf-ed02-4060-b307-49a50272aa85",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "yeast_tax_id = get_tax_id(yeast, lexicon)\n",
+    "arabidopsis_tax_id = get_tax_id(arabidopsis, lexicon)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "67e88166-cf6a-498a-87b2-6a13f20f98bd",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Saccharomycetales     2787\n",
+       "saccharomyceta         442\n",
+       "Eukaryota              206\n",
+       "Opisthokonta           189\n",
+       "Ascomycota             117\n",
+       "cellular organisms      10\n",
+       "Name: overlap, dtype: int64"
+      ]
+     },
+     "execution_count": 14,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "yeast_tax_id[\"overlap\"].value_counts()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "a6bb37f4-850b-4a5b-a795-559ae06ebef8",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "rosids                15528\n",
+       "Mesangiospermae        2794\n",
+       "Eukaryota               250\n",
+       "cellular organisms       14\n",
+       "Name: overlap, dtype: int64"
+      ]
+     },
+     "execution_count": 15,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "arabidopsis_tax_id[\"overlap\"].value_counts()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.8"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
+%% Cell type:code id:e4b053ea-b0c7-4884-9bae-fb9738ab86a2 tags:
+
+``` python
+import pandas as pd
+import numpy as np
+
+from matplotlib import pyplot as plt
+import seaborn as sns
+```
+
+%% Cell type:markdown id:852d095d-0d68-4850-8485-ec7708b81ee0 tags:
+
+I figured out a way to access the entire EggNOG database - see [here](https://twitter.com/galicae/status/1608117353711124480?s=20&t=IueyawfuyEwv2D7Nb65olQ). Really wish I could have figured this out about a year ago... anyway, here goes:
+
+%% Cell type:code id:c7bb8a9a-b1b3-4b6d-925e-f41e249962d8 tags:
+
+``` python
+eggnog = pd.read_csv("/Users/npapadop/Documents/data/references/eggnog/eggnog_slim.csv", index_col=0)
+
+eggnog["taxid"] = eggnog["name"].str.split(".").str[0]
+eggnog["eggnog_id"] = eggnog["name"].str.split(".").str[1]
+eggnog.drop(columns=["name"], inplace=True)
+eggnog.reset_index(inplace=True, drop=True)
+```
+
+%% Cell type:code id:dcd4ff43-60a9-45fa-9493-0eedc4727d9d tags:
+
+``` python
+taxid_info = pd.read_csv("../data/e5.taxid_info.tsv", sep="\t", index_col="# Taxid")
+```
+
+%% Cell type:code id:f276d9ba-d500-4798-a961-1a81a0275a3f tags:
+
+``` python
+translation = pd.read_csv("../data/translation", sep="\t", header=None)
+translation.columns = ["name", "accession", "type"]
+translation["taxid"] = translation["name"].str.split(".").str[0]
+translation["eggnog_id"] = translation["name"].str.split(".").str[1]
+translation.drop(columns=["name"], inplace=True)
+translation.reset_index(inplace=True, drop=True)
+```
+
+%% Cell type:code id:c426b885-99a4-4103-8ee8-42fd25dd78b6 tags:
+
+``` python
+def foldseek_top_hits(m8_loc):
+    foldseek = pd.read_csv(m8_loc, sep="\t", header=None)
+    foldseek.columns = ["query", "target", "seq. id.", "alignment length", "no. mismatches",
+                       "no. gap open", "query start", "query end", "target start", "target end",
+                       "e value", "bit score"]
+    foldseek["query"] = foldseek["query"].str.split("-").str[1]
+    foldseek["target"] = foldseek["target"].str.split("-").str[1]
+
+    in_species_hits = foldseek["target"].isin(foldseek["query"])
+    foldseek = foldseek[~in_species_hits]
+
+    top_hits = foldseek.sort_values("e value").drop_duplicates("query", keep="first")
+    return top_hits
+```
+
+%% Cell type:code id:dce10df8-05bb-40df-9ba6-f0d08405124a tags:
+
+``` python
+yeast = foldseek_top_hits("/Users/npapadop/Documents/data/foldseek/yeast.m8")
+arabidopsis = foldseek_top_hits("/Users/npapadop/Documents/data/foldseek/arabidopsis.m8")
+```
+
+%% Cell type:code id:92bcf06b-3da2-4034-be58-3961fff4b857 tags:
+
+``` python
+def extract_unique_ids(df):
+    queries = df["query"].unique()
+    targets = df["target"].unique()
+    to_translate = np.concatenate((queries, targets))
+    return np.unique(to_translate)
+```
+
+%% Cell type:code id:cc6e23dc-2757-4ce5-bf07-bfaf2141939a tags:
+
+``` python
+sce_translate = extract_unique_ids(yeast)
+ath_translate = extract_unique_ids(arabidopsis)
+
+to_translate = np.unique(np.concatenate((sce_translate, ath_translate)))
+```
+
+%% Cell type:markdown id:beb147c5-6c5f-4447-ae38-644948baf204 tags:
+
+The accession IDs are not unique; it may happen that we have collisions. To avoid unnecessary drama we will just remove all duplicates.
+
+%% Cell type:code id:044b9d64-9d97-4f55-ac70-3fae5542c5db tags:
+
+``` python
+def map_AC_to_EggNOG(to_translate, translation, eggnog):
+    keep_accession = np.intersect1d(to_translate, translation["accession"])
+    eggnog_ids = translation.set_index("accession").loc[keep_accession]["eggnog_id"]
+    eggnog_ids.drop_duplicates(keep=False, inplace=True)
+    lexicon = pd.DataFrame(eggnog_ids).reset_index()
+    lexicon.set_index("eggnog_id", inplace=True)
+
+    keep_eggnog = np.intersect1d(eggnog["eggnog_id"], eggnog_ids)
+    annotation = eggnog.set_index("eggnog_id").loc[keep_eggnog]
+    taxonomy = annotation["taxid"].reset_index().drop_duplicates()
+    taxonomy.set_index("eggnog_id", inplace=True)
+
+    lexicon = lexicon.join(taxonomy)
+    lexicon = lexicon.reset_index()
+    lexicon.columns = ["eggnog", "accession", "taxid"]
+    return lexicon
+```
+
+%% Cell type:code id:b8804d2d-6099-4125-a182-b5955039f90a tags:
+
+``` python
+lexicon = map_AC_to_EggNOG(to_translate, translation, eggnog)
+```
+
+%% Cell type:code id:5b48ddd0-5fbe-4482-bec2-535f8f493b5a tags:
+
+``` python
+def max_tax_overlap(row, x="query lineage", y="target lineage"):
+    idx = 0
+    for idx, (i, j) in enumerate(zip(row[x], row[y])):
+        if i != j:
+            return row[x][idx - 1]
+    return row[x][idx]
+```
+
+%% Cell type:code id:21cab938-8fea-4afa-b65f-38e43886e221 tags:
+
+``` python
+def get_tax_id(top_hits, lexicon):
+    top_hits = top_hits.join(lexicon.set_index("accession")["taxid"], on="query")
+    top_hits.columns = ['query', 'target', 'seq. id.', 'alignment length', 'no. mismatches',
+                        'no. gap open', 'query start', 'query end', 'target start',
+                        'target end', 'e value', 'bit score', 'query_taxid']
+
+    top_hits = top_hits.join(lexicon.set_index("accession")["taxid"], on="target")
+    top_hits.columns = ['query', 'target', 'seq. id.', 'alignment length', 'no. mismatches',
+                        'no. gap open', 'query start', 'query end', 'target start',
+                        'target end', 'e value', 'bit score', 'query_taxid', 'target_taxid']
+
+    missing = top_hits["query_taxid"].isna() | top_hits["target_taxid"].isna()
+    equal = top_hits["query_taxid"] == top_hits["target_taxid"]
+
+    remove = missing | equal
+
+    top_hits["query_taxid"].isna().sum()
+
+    top_hits["target_taxid"].isna().sum()
+
+    top_hits[~remove]
+
+    top_hits_taxid = top_hits[~remove][["query_taxid", "target_taxid", "e value"]].copy()
+
+    top_hits_taxid["query_taxid"] = top_hits_taxid["query_taxid"].astype(np.int64)
+    top_hits_taxid["target_taxid"] = top_hits_taxid["target_taxid"].astype(np.int64)
+
+    top_hits_taxid = top_hits_taxid.join(taxid_info["Named Lineage"], on="query_taxid")
+    top_hits_taxid.columns = ["query", "target", "e value", "query lineage"]
+
+    top_hits_taxid = top_hits_taxid.join(taxid_info["Named Lineage"], on="target")
+    top_hits_taxid.columns = ["query", "target", "e value", "query lineage", "target lineage"]
+
+    top_hits_taxid["query lineage"] = top_hits_taxid["query lineage"].str.split(",")
+    top_hits_taxid["target lineage"] = top_hits_taxid["target lineage"].str.split(",")
+    top_hits_taxid["overlap"] = top_hits_taxid.apply(max_tax_overlap, axis=1)
+
+    return top_hits_taxid
+```
+
+%% Cell type:code id:1751cddf-ed02-4060-b307-49a50272aa85 tags:
+
+``` python
+yeast_tax_id = get_tax_id(yeast, lexicon)
+arabidopsis_tax_id = get_tax_id(arabidopsis, lexicon)
+```
+
+%% Cell type:code id:67e88166-cf6a-498a-87b2-6a13f20f98bd tags:
+
+``` python
+yeast_tax_id["overlap"].value_counts()
+```
+
+%% Output
+
+    Saccharomycetales     2787
+    saccharomyceta         442
+    Eukaryota              206
+    Opisthokonta           189
+    Ascomycota             117
+    cellular organisms      10
+    Name: overlap, dtype: int64
+
+%% Cell type:code id:a6bb37f4-850b-4a5b-a795-559ae06ebef8 tags:
+
+``` python
+arabidopsis_tax_id["overlap"].value_counts()
+```
+
+%% Output
+
+    rosids                15528
+    Mesangiospermae        2794
+    Eukaryota               250
+    cellular organisms       14
+    Name: overlap, dtype: int64
--- a/analysis/revision-profile_search.ipynb
+++ b/analysis/revision-profile_search.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "dac2f763-5bed-46de-8cc6-890cb9ef4d85",
+   "metadata": {},
+   "source": [
+    "In the manuscript we state that MorF performs at the same level or better than blastp and EggNOG-mapper, annotation pipelines that use sequence similarity. The reviewers challenged us to expand the comparison to more sensitive sequence search options. For ease of comparison we chose to use emapper in profile mode (HMMER). Since we are interested in remote homology we decided to use the HMMs at the `Eukaryota` level of the EggNOG database."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "fa3ab327-3034-49b2-b4dd-06400812de8f",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "2023-01-09 16:55\n"
+     ]
+    }
+   ],
+   "source": [
+    "from datetime import datetime, timezone\n",
+    "import pytz\n",
+    "\n",
+    "utc_dt = datetime.now(timezone.utc) # UTC time\n",
+    "dt = utc_dt.astimezone()\n",
+    "tz = pytz.timezone('Europe/Berlin')\n",
+    "berlin_now = datetime.now(tz)\n",
+    "print(f'{berlin_now:%Y-%m-%d %H:%M}')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "17a5b145-106d-493b-a6b8-56ece838561b",
+   "metadata": {},
+   "source": [
+    "# Agreement between sequence profile searches and morphologs\n",
+    "\n",
+    "We will compare the annotation produced by AlphaFold+FoldSeek against that produced by EggNOG-mapper in `hmmer` mode. If our idea worked well, we should see that in the overwhelming majority of cases the structural pipeline identifies the same annotation for each _Spongilla_ protein."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "33bfb60a-09ad-4295-9c76-0b4c1e25f0e7",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import glob\n",
+    "from os.path import exists\n",
+    "\n",
+    "import pandas as pd\n",
+    "import numpy as np\n",
+    "\n",
+    "import matplotlib.pyplot as plt\n",
+    "from upsetplot import plot as upset"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "aebf5571-df8e-4a37-ade0-a9c66a6d4b74",
+   "metadata": {},
+   "source": [
+    "Read the two tables:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "95f5b02a-83e9-4eb6-a322-c15368890d2e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "morf = pd.read_parquet('../data/results/structure_annotation.parquet')\n",
+    "hmmer = pd.read_csv('../data/profile/slac_hmmer.emapper.annotations', sep='\\t', skiprows=4, skipfooter=3, engine='python')\n",
+    "emapper = pd.read_csv('../data/results/Slacustris_eggnog.tsv', sep='\\t')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e501c7b6-5201-4044-b709-80edf3fea48c",
+   "metadata": {},
+   "source": [
+    "Identify the bit score cut off and threshold the structure annotation:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "id": "4cee8058-943b-40ff-bf2a-e79fb918b3e4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "bitscore_cut_off = np.exp(5)\n",
+    "keep = morf['bit score'] >= bitscore_cut_off\n",
+    "morf = morf[keep].copy()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c59bd41f-e827-4bbe-b742-93c0ac5b64fa",
+   "metadata": {},
+   "source": [
+    "extract protein IDs from the hmmer results so we can merge:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "9e998c73-6e3d-4e71-a232-2f21701e52df",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "hmmer[\"protein_id\"] = hmmer[\"#query\"].str.split(\".\").str[1].astype(int)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "03e9553c-08df-4fac-afe1-8690e2a62f16",
+   "metadata": {},
+   "source": [
+    "How many proteins are annotated by each approach?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "343086a8-9344-454b-8628-a34fc5e5a649",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "((25232, 30), (28897, 22), (17990, 11))"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "morf.shape, hmmer.shape, emapper.shape"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "793bf267-9baa-4fd3-b9f1-23f1ee2a6a76",
+   "metadata": {},
+   "source": [
+    "How many proteins don't get a name?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "01caaf09-160f-4ec2-bf0d-895551ad141c",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(5206, 11724, 5317)"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "(morf['Preferred_name'] == '-').sum(), (hmmer['Preferred_name'] == '-').sum(), (emapper['Preferred_name'] == '-').sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "74d30005-698d-470b-b48b-af8824b954f4",
+   "metadata": {},
+   "source": [
+    "How many proteins don't get a description?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "a84742df-0c9c-48fc-b716-bf02ca4fb0bd",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(38, 2592, 596)"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "(morf['Description'] == '-').sum(), (hmmer['Description'] == '-').sum(), (emapper['Description'] == '-').sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7d04e462-be6c-4316-84d4-4185a2d8528c",
+   "metadata": {},
+   "source": [
+    "While `emapper-hmmer` annotates more proteins, it also annotates them at a less useful level (no name); effectively, MorF still annotates a larger part of the _Spongilla_ proteome.\n",
+    "\n",
+    "# What is the level of detail given by each modality?\n",
+    "\n",
+    "We will use the amount of orthogroups as a proxy for that. If annotation via hmmer is more vague we would expect to consistently find less orthogroups listed per protein.\n",
+    "\n",
+    "This is an inherently flawed comparison, as MorF looks for the best morpholog, which is going to be a real protein rather than an orthologous group, as is the case for emapper. However, the argument could be made that if MorF agrees with emapper/emapper-hmmer on the eukaryote or root level, then the additional detail brought by using a best-hit approach might be beneficial."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "4f6a0e0c-c31b-4c99-af3e-f3e5f7de97ed",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "morf['#OGs'] = morf['eggNOG_OGs'].str.split(',').apply(len)\n",
+    "hmmer['#OGs'] = hmmer['eggNOG_OGs'].str.split(',').apply(len)\n",
+    "emapper['#OGs'] = emapper['eggNOG_OGs'].str.split(',').apply(len)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "483f8d88-913c-493d-9ced-d1c5c523b8e3",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAiMAAAGdCAYAAADAAnMpAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjYuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8o6BhiAAAACXBIWXMAAA9hAAAPYQGoP6dpAAA15ElEQVR4nO3df1zV9d3/8ecR5Ic/gISBWqD4G6VMYTNQNGvizNWqbTK9xJlacvkrJE0Z9a2LtTB1Sq0gKc3cKrlt/dwk7Vybmsa8ZojLS71mGQYZjiQHhgkKn+8fXp6rIz/kHMC34ON+u31uN877vD+fz+t9PMGz9+eXzbIsSwAAAIZ0Ml0AAAC4thFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABjlabqA5qirq9MXX3yh7t27y2azmS4HAAA0g2VZOn36tHr37q1OnRqf/2gXYeSLL75QaGio6TIAAIAbSkpKdMMNNzT6frsII927d5d0YTB+fn6GqwEAAM1RWVmp0NBQx9/xxrSLMHLx0Iyfnx9hBACAduZyp1hwAisAADCKMAIAAIwijAAAAKPaxTkjAIALLMvS+fPnVVtba7oUQB4eHvL09GzxbTcIIwDQTtTU1Ki0tFRnzpwxXQrg0KVLF/Xq1UteXl5ub4MwAgDtQF1dnYqKiuTh4aHevXvLy8uLm0DCKMuyVFNToy+//FJFRUUaOHBgkzc2awphBADagZqaGtXV1Sk0NFRdunQxXQ4gSfL19VXnzp312WefqaamRj4+Pm5thxNYAaAdcff/PIG20hrfSb7VAADAKMIIAAAwinNGAKCdW2s/ckX3t3jCoCu6P3R8zIwAANrUzJkzZbPZlJSUVO+9efPmyWazaebMmS3ax8aNG2Wz2eotL774You2iyuDmREAQJsLDQ3V5s2btXbtWvn6+kqSzp49q9dee01hYWFub9eyLMcN4Pz8/PSPf/zD6X1/f3/3i8YVw8wIAKDNjRw5UmFhYXrjjTccbW+88YZCQ0M1YsQIR1t1dbUWLVqk4OBg+fj4aMyYMdq7d6/j/R07dshms2nbtm2Kjo6Wt7e3du3aJenCk2F79uzptFwMPri6MTPSUWzPaPk2xqe2fBsA0Ij77rtPL730kv7t3/5NkrRhwwbNmjVLO3bscPR5+OGH9frrr+vll19Wnz59tHLlSk2cOFGffPKJevTo4dRv9erV6tevnwICAvTZZ59d6eGgFTEzAgC4IhITE7V7924dO3ZMn332mT744ANNnz7d8X5VVZWys7O1atUqTZo0SUOHDtULL7wgX19frV+/3mlb6enpmjBhgvr376/AwEBJUkVFhbp16+ZYevbseUXHB/cxMwIAuCKCgoI0efJkvfzyy7IsS5MnT1ZQUJDj/aNHj+rcuXMaPXq0o61z58763ve+p8OHDzttKzo6ut72u3fvrn379jlec4O49oMwAgC4YmbNmqUFCxZIkp577jmn9yzLkqR6z9yxLKteW9euXettu1OnThowYEBrlosrhNgIALhifvCDH6impkY1NTWaOHGi03sDBgyQl5eXdu/e7Wg7d+6cPvzwQ0VERFzpUnEFMTMCALhiPDw8HIdcPDw8nN7r2rWr/v3f/11Lly5Vjx49FBYWppUrV+rMmTOaPXu2iXJxhRBGAKCda293RPXz82v0vRUrVqiurk6JiYk6ffq0oqOjtW3bNl133XVXsEJcaTbr4kG6q1hlZaX8/f1VUVHR5Jf4msalvUCHdvbsWRUVFSk8PNztx7QDbaGp72Zz/35zzggAADCKMAIAAIwijAAAAKMIIwAAwCjCCAAAMIowAgAAjHIrjGRlZTku4YmKinI8vrkxr7zyioYPH64uXbqoV69euu+++1ReXu5WwQAAoGNxOYzk5uYqOTlZaWlpKiwsVFxcnCZNmqTi4uIG++/evVszZszQ7NmzdfDgQf3+97/X3r17NWfOnBYXDwAA2j+Xw8iaNWs0e/ZszZkzRxEREcrMzFRoaKiys7Mb7L9nzx717dtXixYtUnh4uMaMGaO5c+fqww8/bHHxAACg/XPpdvA1NTUqKCjQ8uXLndrj4+OVn5/f4DqxsbFKS0tTXl6eJk2apLKyMv3hD3/Q5MmTG91PdXW1qqurHa8rKytdKRMAri2tcQdmV3C3ZrQyl2ZGTp48qdraWoWEhDi1h4SE6MSJEw2uExsbq1deeUUJCQny8vJSz549FRAQoN/85jeN7icjI0P+/v6OJTQ01JUyAQAwpqamxnQJ7Y5bJ7DabDan15Zl1Wu76NChQ1q0aJH+3//7fyooKNDWrVtVVFSkpKSkRrefmpqqiooKx1JSUuJOmQCAq4BlWVq5cqX69esnX19fDR8+XH/4wx8kSTt27JDNZtO2bds0YsQI+fr66rbbblNZWZneffddRUREyM/PT1OnTtWZM2cc29y6davGjBmjgIAABQYG6oc//KGOHj3qeP/YsWOy2WzavHmzYmNj5ePjo2HDhmnHjh2OPhf3vWXLFg0fPlw+Pj4aNWqUDhw44FR/fn6+xo4dK19fX4WGhmrRokWqqqpyvN+3b1898cQTmjlzpvz9/XX//fe30SfZcbkURoKCguTh4VFvFqSsrKzebMlFGRkZGj16tJYuXaqbbrpJEydOVFZWljZs2KDS0tIG1/H29pafn5/TAgBonx555BG99NJLys7O1sGDB7V48WJNnz5dO3fudPR5/PHH9eyzzyo/P18lJSWaMmWKMjMz9eqrr2rLli2y2+1OM+pVVVVKSUnR3r179ec//1mdOnXSPffco7q6Oqd9L126VA899JAKCwsVGxuru+66q97VnEuXLtXq1au1d+9eBQcH66677tK5c+ckSQcOHNDEiRN177336qOPPlJubq52796tBQsWOG1j1apVioyMVEFBgR599NHW/gg7PJfOGfHy8lJUVJTsdrvuueceR7vdbtePfvSjBtc5c+aMPD2dd+Ph4SHpQloGAHRcVVVVWrNmjf7yl78oJiZGktSvXz/t3r1b69at0wMPPCBJeuKJJzR69GhJ0uzZs5WamqqjR4+qX79+kqSf/OQn2r59u5YtWyZJ+vGPf+y0n/Xr1ys4OFiHDh1SZGSko33BggWOvtnZ2dq6davWr1+vhx9+2NHnscce04QJEyRJL7/8sm644Qa9+eabmjJlilatWqVp06YpOTlZkjRw4EA988wzGjdunLKzsx1Pqb3tttu0ZMmSVv3sriUuhRFJSklJUWJioqKjoxUTE6OcnBwVFxc7Drukpqbq+PHj2rRpkyTpzjvv1P3336/s7GxNnDhRpaWlSk5O1ve+9z317t27dUcDALiqHDp0SGfPnnX8sb+opqZGI0aMcLy+6aabHD+HhISoS5cujiByse1vf/ub4/XRo0f16KOPas+ePTp58qRjRqS4uNgpjFwMQJLk6emp6OhoHT582KmWb/fp0aOHBg8e7OhTUFCgTz75RK+88oqjj2VZqqurU1FRkSIiIiRJ0dHRLnwquJTLYSQhIUHl5eVKT09XaWmpIiMjlZeXpz59+kiSSktLne45MnPmTJ0+fVrPPvusHnroIQUEBOi2227TU0891XqjAABclS6GhC1btuj66693es/b29txnkfnzp0d7Tabzen1xbZvH4K58847FRoaqhdeeEG9e/dWXV2dIiMjm3XyaGPnODbUp66uTnPnztWiRYvq9QkLC3P83LVr18tuE41zOYxI0rx58zRv3rwG39u4cWO9toULF2rhwoXu7AoA0I4NHTpU3t7eKi4u1rhx4+q9/+2TTpurvLxchw8f1rp16xQXFyfpwg02G7Jnzx6NHTtWknT+/HkVFBTUO99jz549jmBx6tQpHTlyREOGDJEkjRw5UgcPHtSAAQNcrhPN51YYAQCgObp3764lS5Zo8eLFqqur05gxY1RZWan8/Hx169bNMavuiuuuu06BgYHKyclRr169VFxcXO/+Vxc999xzGjhwoCIiIrR27VqdOnVKs2bNcuqTnp6uwMBAhYSEKC0tTUFBQbr77rslScuWLdMtt9yi+fPn6/7771fXrl11+PDheifUomUIIwCANvXLX/5SwcHBysjI0KeffqqAgACNHDlSv/jFL+pd/dIcnTp10ubNm7Vo0SJFRkZq8ODBeuaZZ3TrrbfW67tixQo99dRTKiwsVP/+/fX2228rKCioXp8HH3xQH3/8sYYPH6533nlHXl5eki6cy7Jz506lpaUpLi5OlmWpf//+SkhIcOuzQMNsVju4pKWyslL+/v6qqKjgMt/GtMYdGLmrInDVOnv2rIqKihwPKUXTjh07pvDwcBUWFurmm29usM+OHTs0fvx4nTp1SgEBAVe0vo6kqe9mc/9+u3XTMwAAgNZCGAEAAEZxzggAoMPp27fvZW+seeutt3LzzasEMyMAAMAowggAADCKMAIAAIwijAAAAKMIIwAAwCjCCAAAMIowAgBAGzt27JhsNpv2799vupSrEvcZAYB2Lmt/1hXd37ybG35qO+AuZkYAAGhFNTU1pktoE205LsIIAKBNWZallStXql+/fvL19dXw4cP1hz/8QdKFh9XZbDZt27ZNI0aMkK+vr2677TaVlZXp3XffVUREhPz8/DR16lSdOXPGsc2tW7dqzJgxCggIUGBgoH74wx/q6NGjjvcvHhbZvHmzYmNj5ePjo2HDhmnHjh2OPhf3vWXLFg0fPlw+Pj4aNWqUDhw44FR/fn6+xo4dK19fX4WGhmrRokWqqqpyvN+3b1898cQTmjlzpvz9/XX//fc3+ll8+umnGj9+vLp06aLhw4frr3/9q+O9jRs3KiAgQH/60580ePBgdenSRT/5yU9UVVWll19+WX379tV1112nhQsXqra2tt7+Z8yYoW7duqlPnz56++239eWXX+pHP/qRunXrphtvvFEffvhhm42rpQgjAIA29cgjj+ill15Sdna2Dh48qMWLF2v69OnauXOno8/jjz+uZ599Vvn5+SopKdGUKVOUmZmpV199VVu2bJHdbtdvfvMbR/+qqiqlpKRo7969+vOf/6xOnTrpnnvuUV1dndO+ly5dqoceekiFhYWKjY3VXXfdpfLy8np9Vq9erb179yo4OFh33XWXzp07J0k6cOCAJk6cqHvvvVcfffSRcnNztXv3bi1YsMBpG6tWrVJkZKQKCgr06KOPNvpZpKWlacmSJdq/f78GDRqkqVOn6vz58473z5w5o2eeeUabN2/W1q1btWPHDt17773Ky8tTXl6efvvb3yonJ8cR5i5au3atRo8ercLCQk2ePFmJiYmaMWOGpk+frn379mnAgAGaMWOG4/b3rT2ulrJZ7eDG/M19BPE1bXtGy7cxPrXl2wDQJpp6TPvVfM5IVVWVgoKC9Je//EUxMTGO9jlz5ujMmTN64IEHNH78eP3nf/6nbr/9dknSihUrlJqaqqNHj6pfv36SpKSkJB07dkxbt25tcD9ffvmlgoODdeDAAUVGRurYsWMKDw/XihUrtGzZMknS+fPnFR4eroULF+rhhx/Wjh07NH78eG3evFkJCQmSpK+++ko33HCDNm7cqClTpmjGjBny9fXVunXrHPvavXu3xo0bp6qqKvn4+Khv374aMWKE3nzzzUY/h4v1vPjii5o9e7Yk6dChQxo2bJgOHz6sIUOGaOPGjbrvvvv0ySefqH///o5x//a3v9U///lPdevWTZL0gx/8QH379tXzzz8v6cIMRlxcnH77299Kkk6cOKFevXrp0UcfVXp6uiRpz549iomJUWlpqXr27Nlq45Ka/m429+83MyMAgDZz6NAhnT17VhMmTFC3bt0cy6ZNm5wOq9x0002On0NCQtSlSxdHELnYVlZW5nh99OhRTZs2Tf369ZOfn5/Cw8MlScXFxU77/3YA8vT0VHR0tA4fPtxonx49emjw4MGOPgUFBdq4caNT7RMnTlRdXZ2Kiooc60VHRzt+TkpKcur/bd8eZ69evSTJaVxdunRxBJGL4+7bt6/Tdi79LC7dbkhIiCTpxhtvrNd2cT13xtWWuJoGANBmLh422bJli66//nqn97y9vR2BpHPnzo52m83m9Ppi27cPwdx5550KDQ3VCy+8oN69e6uurk6RkZHNOsnSZrM1u09dXZ3mzp2rRYsW1esTFhbm+Llr166On9PT07VkyZIGt3vpOC/uo6H3L/a53GfR2Hab2pc742pLhBEAQJsZOnSovL29VVxcrHHjxtV7/9uzI81VXl6uw4cPa926dYqLi5N04RBDQ/bs2aOxY8dKunCYpqCgoN55EXv27HH8AT516pSOHDmiIUOGSJJGjhypgwcPasCAAc2uLzg4WMHBwS6P60pyZ1xtiTACAGgz3bt315IlS7R48WLV1dVpzJgxqqysVH5+vuPKD1ddd911CgwMVE5Ojnr16qXi4mItX768wb7PPfecBg4cqIiICK1du1anTp3SrFmznPqkp6crMDBQISEhSktLU1BQkO6++25J0rJly3TLLbdo/vz5uv/++9W1a1cdPny43gm17c3VNi7CCACgTf3yl79UcHCwMjIy9OmnnyogIEAjR47UL37xi3qHG5qjU6dO2rx5sxYtWqTIyEgNHjxYzzzzjG699dZ6fVesWKGnnnpKhYWF6t+/v95++20FBQXV6/Pggw/q448/1vDhw/XOO+/Iy8tL0oVzMXbu3Km0tDTFxcXJsiz179/fccJre3W1jYuraToKrqYBOrSmrlhAfRevXiksLNTNN9/cYJ+LV9OcOnVKAQEBV7S+joSraQAAQLtHGAEAAEZxzggAoMPp27evLncWwq233nrZPrgymBkBAABGEUYAAIBRhBEAaEc4rICrTWt8JwkjANAOXLy195kzZwxXAji7+J289Lb1rnDrBNasrCytWrVKpaWlGjZsmDIzMx235L3UzJkz9fLLL9drHzp0qA4ePOjO7gHgmuPh4aGAgADHg866dOnSrGesAG3FsiydOXNGZWVlCggIkIeHh9vbcjmM5ObmKjk5WVlZWRo9erTWrVunSZMm6dChQ04P17no6aef1ooVKxyvz58/r+HDh+unP/2p20UDwLWoZ8+eklTvia2ASQEBAY7vprtcvgPrqFGjNHLkSGVnZzvaIiIidPfddysj4/J3AX3rrbd07733qqioqNnPJOAOrM3AHViBa0Ztba3OnTtnugxAnTt3bnJGpLl/v12aGampqVFBQUG9BxLFx8crPz+/WdtYv369vv/97zcZRKqrq1VdXe14XVlZ6UqZANCheXh4tGhKHLjauHQC68mTJ1VbW6uQkBCn9pCQEJ04ceKy65eWlurdd9/VnDlzmuyXkZEhf39/xxIaGupKmQAAoB1x62qaS0+asiyrWSdSbdy4UQEBAY5HMzcmNTVVFRUVjqWkpMSdMgEAQDvg0mGaoKAgeXh41JsFKSsrqzdbcinLsrRhwwYlJiY6Hs3cGG9vb3l7e7tSGgAAaKdcmhnx8vJSVFSU7Ha7U7vdbldsbGyT6+7cuVOffPKJZs+e7XqVAACgw3L50t6UlBQlJiYqOjpaMTExysnJUXFxsZKSkiRdOMRy/Phxbdq0yWm99evXa9SoUYqMjGydygEAQIfgchhJSEhQeXm50tPTVVpaqsjISOXl5TmujiktLVVxcbHTOhUVFXr99df19NNPt07VAACgw3D5PiMmcJ+RZuA+IwCAq0xz/37zbBoAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGOVWGMnKylJ4eLh8fHwUFRWlXbt2Ndm/urpaaWlp6tOnj7y9vdW/f39t2LDBrYIBAEDH4unqCrm5uUpOTlZWVpZGjx6tdevWadKkSTp06JDCwsIaXGfKlCn65z//qfXr12vAgAEqKyvT+fPnW1w8AABo/2yWZVmurDBq1CiNHDlS2dnZjraIiAjdfffdysjIqNd/69at+tnPfqZPP/1UPXr0cKvIyspK+fv7q6KiQn5+fm5to8PbXv+zd9n41JZvAwCA/9Xcv98uHaapqalRQUGB4uPjndrj4+OVn5/f4DrvvPOOoqOjtXLlSl1//fUaNGiQlixZom+++caVXQMAgA7KpcM0J0+eVG1trUJCQpzaQ0JCdOLEiQbX+fTTT7V79275+PjozTff1MmTJzVv3jx99dVXjZ43Ul1drerqasfryspKV8oEAADtiFsnsNpsNqfXlmXVa7uorq5ONptNr7zyir73ve/pjjvu0Jo1a7Rx48ZGZ0cyMjLk7+/vWEJDQ90pEwAAtAMuhZGgoCB5eHjUmwUpKyurN1tyUa9evXT99dfL39/f0RYRESHLsvT55583uE5qaqoqKiocS0lJiStlAgCAdsSlMOLl5aWoqCjZ7XandrvdrtjY2AbXGT16tL744gt9/fXXjrYjR46oU6dOuuGGGxpcx9vbW35+fk4LAADomFw+TJOSkqIXX3xRGzZs0OHDh7V48WIVFxcrKSlJ0oVZjRkzZjj6T5s2TYGBgbrvvvt06NAhvf/++1q6dKlmzZolX1/f1hsJAABol1y+z0hCQoLKy8uVnp6u0tJSRUZGKi8vT3369JEklZaWqri42NG/W7dustvtWrhwoaKjoxUYGKgpU6boiSeeaL1RAACAdsvl+4yYwH1GmoH7jAAArjJtcp8RAACA1kYYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRboWRrKwshYeHy8fHR1FRUdq1a1ejfXfs2CGbzVZv+Z//+R+3iwYAAB2Hy2EkNzdXycnJSktLU2FhoeLi4jRp0iQVFxc3ud4//vEPlZaWOpaBAwe6XTQAAOg4XA4ja9as0ezZszVnzhxFREQoMzNToaGhys7ObnK94OBg9ezZ07F4eHi4XTQAAOg4PF3pXFNTo4KCAi1fvtypPT4+Xvn5+U2uO2LECJ09e1ZDhw7VI488ovHjxzfat7q6WtXV1Y7XlZWVrpTZIWXtz2q6w78+cmu78wJucms9AABai0szIydPnlRtba1CQkKc2kNCQnTixIkG1+nVq5dycnL0+uuv64033tDgwYN1++236/333290PxkZGfL393csoaGhrpQJAADaEZdmRi6y2WxOry3Lqtd20eDBgzV48GDH65iYGJWUlGj16tUaO3Zsg+ukpqYqJSXF8bqyspJAAgBAB+XSzEhQUJA8PDzqzYKUlZXVmy1pyi233KKPP/640fe9vb3l5+fntAAAgI7JpTDi5eWlqKgo2e12p3a73a7Y2Nhmb6ewsFC9evVyZdcAAKCDcvkwTUpKihITExUdHa2YmBjl5OSouLhYSUlJki4cYjl+/Lg2bdokScrMzFTfvn01bNgw1dTU6He/+51ef/11vf766607EgAA0C65HEYSEhJUXl6u9PR0lZaWKjIyUnl5eerTp48kqbS01OmeIzU1NVqyZImOHz8uX19fDRs2TFu2bNEdd9zReqMAAADtls2yLMt0EZdTWVkpf39/VVRUXLPnj1z20t6ixu+C2xSnS3vHp7q1DQAAGtLcv988mwYAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUW6FkaysLIWHh8vHx0dRUVHatWtXs9b74IMP5OnpqZtvvtmd3QIAgA7I5TCSm5ur5ORkpaWlqbCwUHFxcZo0aZKKi4ubXK+iokIzZszQ7bff7naxAACg43E5jKxZs0azZ8/WnDlzFBERoczMTIWGhio7O7vJ9ebOnatp06YpJibG7WIBAEDH41IYqampUUFBgeLj453a4+PjlZ+f3+h6L730ko4eParHHnusWfuprq5WZWWl0wIAADoml8LIyZMnVVtbq5CQEKf2kJAQnThxosF1Pv74Yy1fvlyvvPKKPD09m7WfjIwM+fv7O5bQ0FBXygQAAO2IWyew2mw2p9eWZdVrk6Ta2lpNmzZN//Ef/6FBgwY1e/upqamqqKhwLCUlJe6UCQAA2oHmTVX8r6CgIHl4eNSbBSkrK6s3WyJJp0+f1ocffqjCwkItWLBAklRXVyfLsuTp6an33ntPt912W731vL295e3t7UppAACgnXJpZsTLy0tRUVGy2+1O7Xa7XbGxsfX6+/n56cCBA9q/f79jSUpK0uDBg7V//36NGjWqZdUDAIB2z6WZEUlKSUlRYmKioqOjFRMTo5ycHBUXFyspKUnShUMsx48f16ZNm9SpUydFRkY6rR8cHCwfH5967QAA4NrkchhJSEhQeXm50tPTVVpaqsjISOXl5alPnz6SpNLS0svecwQAAOAim2VZlukiLqeyslL+/v6qqKiQn5+f6XKMyNqf1XSHoubdBfdS8wJu+r8X41Pd2gYAAA1p7t9vnk0DAACMIowAAACjCCMAAMAowggAADCKMAIAAIwijAAAAKMIIwAAwCjCCAAAMIowAgAAjCKMAAAAowgjAADAKMIIAAAwijACAACMIowAAACjCCMAAMAowggAADCKMAIAAIwijAAAAKMIIwAAwCjCCAAAMIowAgAAjCKMAAAAowgjAADAKMIIAAAwijACAACMIowAAACjCCMAAMAowggAADCKMAIAAIzyNF0AgNa11n6kTba7eMKgNtkuADAzAgAAjHIrjGRlZSk8PFw+Pj6KiorSrl27Gu27e/dujR49WoGBgfL19dWQIUO0du1atwsGAAAdi8uHaXJzc5WcnKysrCyNHj1a69at06RJk3To0CGFhYXV69+1a1ctWLBAN910k7p27ardu3dr7ty56tq1qx544IFWGQQAAGi/XJ4ZWbNmjWbPnq05c+YoIiJCmZmZCg0NVXZ2doP9R4wYoalTp2rYsGHq27evpk+frokTJzY5mwIAAK4dLoWRmpoaFRQUKD4+3qk9Pj5e+fn5zdpGYWGh8vPzNW7cuEb7VFdXq7Ky0mkBAAAdk0th5OTJk6qtrVVISIhTe0hIiE6cONHkujfccIO8vb0VHR2t+fPna86cOY32zcjIkL+/v2MJDQ11pUwAANCOuHUCq81mc3ptWVa9tkvt2rVLH374oZ5//nllZmbqtddea7RvamqqKioqHEtJSYk7ZQIAgHbApRNYg4KC5OHhUW8WpKysrN5syaXCw8MlSTfeeKP++c9/6vHHH9fUqVMb7Ovt7S1vb29XSgMAAO2USzMjXl5eioqKkt1ud2q32+2KjY1t9nYsy1J1dbUruwYAAB2Uy5f2pqSkKDExUdHR0YqJiVFOTo6Ki4uVlJQk6cIhluPHj2vTpk2SpOeee05hYWEaMmSIpAv3HVm9erUWLlzYisMAAADtlcthJCEhQeXl5UpPT1dpaakiIyOVl5enPn36SJJKS0tVXFzs6F9XV6fU1FQVFRXJ09NT/fv314oVKzR37tzWGwUAAGi3bJZlWaaLuJzKykr5+/uroqJCfn5+pssxImt/VtMdity7b8u8gJv+78X4VLe2gasLz6YBcLVo7t9vnk0DAACMIowAAACjCCMAAMAowggAADCKMAIAAIwijAAAAKMIIwAAwCjCCAAAMIowAgAAjCKMAAAAowgjAADAKMIIAAAwyuWn9gJAa+PhfsC1jZkRAABgFGEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEZxnxHgarQ9w+1Vbyku156wB1qxGABoW8yMAAAAowgjAADAKMIIAAAwijACAACMIowAAACjCCMAAMAowggAADCKMAIAAIzipmcA4Ia19iNtst3FEwa1yXaBqxkzIwAAwCi3wkhWVpbCw8Pl4+OjqKgo7dq1q9G+b7zxhiZMmKDvfOc78vPzU0xMjLZt2+Z2wQAAoGNxOYzk5uYqOTlZaWlpKiwsVFxcnCZNmqTi4uIG+7///vuaMGGC8vLyVFBQoPHjx+vOO+9UYWFhi4sHAADtn8thZM2aNZo9e7bmzJmjiIgIZWZmKjQ0VNnZ2Q32z8zM1MMPP6zvfve7GjhwoJ588kkNHDhQf/zjH1tcPAAAaP9cCiM1NTUqKChQfHy8U3t8fLzy8/ObtY26ujqdPn1aPXr0aLRPdXW1KisrnRYAANAxuRRGTp48qdraWoWEhDi1h4SE6MSJE83axq9//WtVVVVpypQpjfbJyMiQv7+/YwkNDXWlTAAA0I64dWmvzWZzem1ZVr22hrz22mt6/PHH9fbbbys4OLjRfqmpqUpJSXG8rqysJJDgmpX1r49c6l/S6Rt9XpnbZJ+RfgktKQkAWpVLYSQoKEgeHh71ZkHKysrqzZZcKjc3V7Nnz9bvf/97ff/732+yr7e3t7y9vV0pDQAAtFMuHabx8vJSVFSU7Ha7U7vdbldsbGyj67322muaOXOmXn31VU2ePNm9SgEAQIfk8mGalJQUJSYmKjo6WjExMcrJyVFxcbGSkpIkXTjEcvz4cW3atEnShSAyY8YMPf3007rlllscsyq+vr7y9/dvxaEAAID2yOUwkpCQoPLycqWnp6u0tFSRkZHKy8tTnz59JEmlpaVO9xxZt26dzp8/r/nz52v+/PmO9p///OfauHFjy0cAAADaNbdOYJ03b57mzZvX4HuXBowdO3a4swsAAHCN4Nk0AADAKMIIAAAwijACAACMcuucEaBB2zNavo3xqS3fBgCgXWFmBAAAGEUYAQAARhFGAACAUYQRAABgFGEEAAAYRRgBAABGEUYAAIBR3GcErS7rXx+5v/L+rAab593c8LOQAADtH2EE7UJWIyGlJQg4AHB14DANAAAwijACAACMIowAAACjCCMAAMAowggAADCKMAIAAIwijAAAAKO4zwg6lqJdze97qqLh9vGpjh/X2o+0sKCGLZ4wqE22CwDtETMjAADAKMIIAAAw6po/TMNtxgEAMIuZEQAAYNQ1PzPi0gmPjQmPa/k2gKtcW53MCwDMjAAAAKMIIwAAwCjCCAAAMIowAgAAjHIrjGRlZSk8PFw+Pj6KiorSrl2NnwRaWlqqadOmafDgwerUqZOSk5PdrRUAAHRALoeR3NxcJScnKy0tTYWFhYqLi9OkSZNUXFzcYP/q6mp95zvfUVpamoYPH97iggEAQMfi8qW9a9as0ezZszVnzhxJUmZmprZt26bs7GxlZGTU69+3b189/fTTkqQNGza0sFy0ZyX/+uayfT4/Wu7ydmP6B7pTDgDgKuHSzEhNTY0KCgoUHx/v1B4fH6/8/PxWK6q6ulqVlZVOCwAA6JhcCiMnT55UbW2tQkJCnNpDQkJ04sSJVisqIyND/v7+jiU0NLTVtg0AAK4ubp3AarPZnF5bllWvrSVSU1NVUVHhWEpKSlpt2wAA4Ori0jkjQUFB8vDwqDcLUlZWVm+2pCW8vb3l7e3datsDrqRbinMu32n71X+eS7PG0YQ9YQ+0UiUAOjqXZka8vLwUFRUlu93u1G632xUbG9uqhQEAgGuDy1fTpKSkKDExUdHR0YqJiVFOTo6Ki4uVlJQk6cIhluPHj2vTpk2Odfbv3y9J+vrrr/Xll19q//798vLy0tChQ1tnFAAAoN1yOYwkJCSovLxc6enpKi0tVWRkpPLy8tSnTx9JF25yduk9R0aMGOH4uaCgQK+++qr69OmjY8eOtax6AADQ7rkcRiRp3rx5mjdvXoPvbdy4sV6bZVnu7AZod/ZV5qqs0yeX7Vf4r+NXoBoAaB94Ng0AADCKMAIAAIwijAAAAKMIIwAAwCi3TmBF07L2Z5kuAQCAdoMwAqBVvHPJVUSfV+a2eJsj/RJavA0AVz8O0wAAAKMIIwAAwCjCCAAAMIowAgAAjOIE1tZQtKtl64fHtU4d16i/Hi13/HxD5TfNX++r8gbb95w/0uKaAADNx8wIAAAwijACAACMIowAAACjCCMAAMAowggAADCKMAIAAIzi0t42VPKv5l1m+vnRhi8xbUxM/0B3ygHanVuKc1q4hdWtUgeAtsXMCAAAMIqZkXborw3MpLhysy+nbX3rxl97zh/R4gmD3K4LAAB3EEYAXLXe6fRJi9Yv3J9Vr23ezfNatE0ArY/DNAAAwCjCCAAAMIowAgAAjCKMAAAAowgjAADAKMIIAAAwijACAACMIowAAACjuOkZAFwj1tqPtNm2uXszWuKaDyPNfZgdgI4hq4G7sjapaFeDzWXf+t1xV92ARlffE/aAa/sDrkFuhZGsrCytWrVKpaWlGjZsmDIzMxUXF9do/507dyolJUUHDx5U79699fDDDyspKcntogGgo2rL2QvgauXyOSO5ublKTk5WWlqaCgsLFRcXp0mTJqm4uLjB/kVFRbrjjjsUFxenwsJC/eIXv9CiRYv0+uuvt7h4AADQ/rk8M7JmzRrNnj1bc+bMkSRlZmZq27Ztys7OVkZGRr3+zz//vMLCwpSZmSlJioiI0IcffqjVq1frxz/+ccuqB4AOal9lbqtvc6RfQqtvE2gNLoWRmpoaFRQUaPny5U7t8fHxys/Pb3Cdv/71r4qPj3dqmzhxotavX69z586pc+fO9daprq5WdXW143VFRYUkqbKy0pVym6X6m3Otvk1X1XiebfE23B1HVd3/fc5nq75u2WdcdWEc35xpuJbm1NjSz8KVz+HbY/+2s1Vfu73/mjNnm1XDN15td7pW9TfnLvs5nvW4/Birvmn482l0v52cx23ye33RN1+3wjlhzfg+N/Zdktz/PtWcafnnd6nm/Lu7qy1+P7e15/7SsqdCN2b+bY2fQ3Stufi9sCyr6Y6WC44fP25Jsj744AOn9l/96lfWoEGDGlxn4MCB1q9+9Suntg8++MCSZH3xxRcNrvPYY49ZklhYWFhYWFg6wFJSUtJkvnDrf89sNpvTa8uy6rVdrn9D7RelpqYqJSXF8bqurk5fffWVAgMDm9yPqyorKxUaGqqSkhL5+fm12navZtfamBlvx8Z4OzbG2/5ZlqXTp0+rd+/eTfZzKYwEBQXJw8NDJ06ccGovKytTSEhIg+v07Nmzwf6enp4KDAxscB1vb295e3s7tQUEBLhSqkv8/Pw6zD98c11rY2a8HRvj7dgYb/vm7+9/2T4uXU3j5eWlqKgo2e12p3a73a7Y2NgG14mJianX/7333lN0dHSD54sAAIBri8uX9qakpOjFF1/Uhg0bdPjwYS1evFjFxcWO+4akpqZqxowZjv5JSUn67LPPlJKSosOHD2vDhg1av369lixZ0nqjAAAA7ZbL54wkJCSovLxc6enpKi0tVWRkpPLy8tSnTx9JUmlpqdM9R8LDw5WXl6fFixfrueeeU+/evfXMM89cFZf1ent767HHHqt3SKgju9bGzHg7NsbbsTHea4fNsi53vQ0AAEDb4am9AADAKMIIAAAwijACAACMIowAAACjrskwkpGRoe9+97vq3r27goODdffdd+sf//iH6bKumIyMDNlsNiUnJ5supc0cP35c06dPV2BgoLp06aKbb75ZBQUFpstqE+fPn9cjjzyi8PBw+fr6ql+/fkpPT1ddXZ3p0lrN+++/rzvvvFO9e/eWzWbTW2+95fS+ZVl6/PHH1bt3b/n6+urWW2/VwYMHzRTbCpoa77lz57Rs2TLdeOON6tq1q3r37q0ZM2boiy++MFdwC13u3/fb5s6dK5vN5nj4anvUnPEePnxYd911l/z9/dW9e3fdcsstTleqdjTXZBjZuXOn5s+frz179shut+v8+fOKj49XVVWV6dLa3N69e5WTk6ObbrrJdClt5tSpUxo9erQ6d+6sd999V4cOHdKvf/3rNr2Lr0lPPfWUnn/+eT377LM6fPiwVq5cqVWrVuk3v/mN6dJaTVVVlYYPH65nn322wfdXrlypNWvW6Nlnn9XevXvVs2dPTZgwQadPn77ClbaOpsZ75swZ7du3T48++qj27dunN954Q0eOHNFdd91loNLWcbl/34veeust/dd//ddlby1+tbvceI8ePaoxY8ZoyJAh2rFjh/7+97/r0UcflY+PzxWu9Apq1hPyOriysjJLkrVz507TpbSp06dPWwMHDrTsdrs1btw468EHHzRdUptYtmyZNWbMGNNlXDGTJ0+2Zs2a5dR27733WtOnTzdUUduSZL355puO13V1dVbPnj2tFStWONrOnj1r+fv7W88//7yBClvXpeNtyN/+9jdLkvXZZ59dmaLaUGPj/fzzz63rr7/e+u///m+rT58+1tq1a694bW2hofEmJCR02P9+G3NNzoxcqqKiQpLUo0cPw5W0rfnz52vy5Mn6/ve/b7qUNvXOO+8oOjpaP/3pTxUcHKwRI0bohRdeMF1WmxkzZoz+/Oc/68iRI5Kkv//979q9e7fuuOMOw5VdGUVFRTpx4oTi4+Mdbd7e3ho3bpzy8/MNVnblVFRUyGazddjZv7q6OiUmJmrp0qUaNmyY6XLaVF1dnbZs2aJBgwZp4sSJCg4O1qhRo5o8dNURXPNhxLIspaSkaMyYMYqMjDRdTpvZvHmz9u3bp4yMDNOltLlPP/1U2dnZGjhwoLZt26akpCQtWrRImzZtMl1am1i2bJmmTp2qIUOGqHPnzhoxYoSSk5M1depU06VdERcfxHnpwzpDQkLqPaSzIzp79qyWL1+uadOmdaiHq33bU089JU9PTy1atMh0KW2urKxMX3/9tVasWKEf/OAHeu+993TPPffo3nvv1c6dO02X12Zcvh18R7NgwQJ99NFH2r17t+lS2kxJSYkefPBBvffeex37mOP/qqurU3R0tJ588klJ0ogRI3Tw4EFlZ2c7PTepo8jNzdXvfvc7vfrqqxo2bJj279+v5ORk9e7dWz//+c9Nl3fF2Gw2p9eWZdVr62jOnTunn/3sZ6qrq1NWVpbpctpEQUGBnn76ae3bt6/D/3tKcpx4/qMf/UiLFy+WJN18883Kz8/X888/r3Hjxpksr81c0zMjCxcu1DvvvKPt27frhhtuMF1OmykoKFBZWZmioqLk6ekpT09P7dy5U88884w8PT1VW1trusRW1atXLw0dOtSpLSIiosOeib506VItX75cP/vZz3TjjTcqMTFRixcvviZmwSSpZ8+eklRvFqSsrKzebElHcu7cOU2ZMkVFRUWy2+0ddlZk165dKisrU1hYmOP312effaaHHnpIffv2NV1eqwsKCpKnp+c19TtMukZnRizL0sKFC/Xmm29qx44dCg8PN11Sm7r99tt14MABp7b77rtPQ4YM0bJly+Th4WGosrYxevToepdqHzlyxPEwx47mzJkz6tTJ+f8rPDw8OtSlvU0JDw9Xz549ZbfbNWLECElSTU2Ndu7cqaeeespwdW3jYhD5+OOPtX37dgUGBpouqc0kJibWO89t4sSJSkxM1H333Weoqrbj5eWl7373u9fU7zDpGg0j8+fP16uvvqq3335b3bt3d/wflb+/v3x9fQ1X1/q6d+9e73yYrl27KjAwsEOeJ7N48WLFxsbqySef1JQpU/S3v/1NOTk5ysnJMV1am7jzzjv1q1/9SmFhYRo2bJgKCwu1Zs0azZo1y3Rprebrr7/WJ5984nhdVFSk/fv3q0ePHgoLC1NycrKefPJJDRw4UAMHDtSTTz6pLl26aNq0aQardl9T4+3du7d+8pOfaN++ffrTn/6k2tpax++wHj16yMvLy1TZbrvcv++lYatz587q2bOnBg8efKVLbRWXG+/SpUuVkJCgsWPHavz48dq6dav++Mc/aseOHeaKbmuGr+YxQlKDy0svvWS6tCumI1/aa1mW9cc//tGKjIy0vL29rSFDhlg5OTmmS2ozlZWV1oMPPmiFhYVZPj4+Vr9+/ay0tDSrurradGmtZvv27Q3+N/vzn//csqwLl/c+9thjVs+ePS1vb29r7Nix1oEDB8wW3QJNjbeoqKjR32Hbt283XbpbLvfve6n2fmlvc8a7fv16a8CAAZaPj481fPhw66233jJX8BVgsyzLavvIAwAA0LBr+gRWAABgHmEEAAAYRRgBAABGEUYAAIBRhBEAAGAUYQQAABhFGAEAAEYRRgAAgFGEEQAAYBRhBAAAGEUYAQAARhFGAACAUf8fWiEpqG6j+c0AAAAASUVORK5CYII=\n",
+      "text/plain": [
+       "<Figure size 640x480 with 1 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "fig, ax = plt.subplots()\n",
+    "ax.hist(morf['#OGs'], bins=20, label='MorF', alpha=0.5, density=True)\n",
+    "ax.hist(emapper['#OGs'], bins=20, label='emapper', alpha=0.5, density=True)\n",
+    "ax.hist(hmmer['#OGs'], bins=20, label='emapper-hmmer', alpha=0.5, density=True)\n",
+    "ax.legend();"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "52950276-189a-4105-8b26-29f1ef9dc3b1",
+   "metadata": {},
+   "source": [
+    "MorF's distribution is clearly shifted to the right. Let's quantify it:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "e53585a7-b2d8-4ad7-90d4-e1baace690a2",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>MorF</th>\n",
+       "      <th>emapper</th>\n",
+       "      <th>emapper-hmmer</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>count</th>\n",
+       "      <td>25232.000000</td>\n",
+       "      <td>17990.000000</td>\n",
+       "      <td>28897.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>mean</th>\n",
+       "      <td>8.283767</td>\n",
+       "      <td>5.213897</td>\n",
+       "      <td>5.350486</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>std</th>\n",
+       "      <td>2.327989</td>\n",
+       "      <td>2.077985</td>\n",
+       "      <td>2.231996</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>min</th>\n",
+       "      <td>2.000000</td>\n",
+       "      <td>2.000000</td>\n",
+       "      <td>2.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>25%</th>\n",
+       "      <td>7.000000</td>\n",
+       "      <td>4.000000</td>\n",
+       "      <td>4.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>50%</th>\n",
+       "      <td>8.000000</td>\n",
+       "      <td>4.000000</td>\n",
+       "      <td>5.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>75%</th>\n",
+       "      <td>10.000000</td>\n",
+       "      <td>7.000000</td>\n",
+       "      <td>7.000000</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>max</th>\n",
+       "      <td>17.000000</td>\n",
+       "      <td>13.000000</td>\n",
+       "      <td>16.000000</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "               MorF       emapper  emapper-hmmer\n",
+       "count  25232.000000  17990.000000   28897.000000\n",
+       "mean       8.283767      5.213897       5.350486\n",
+       "std        2.327989      2.077985       2.231996\n",
+       "min        2.000000      2.000000       2.000000\n",
+       "25%        7.000000      4.000000       4.000000\n",
+       "50%        8.000000      4.000000       5.000000\n",
+       "75%       10.000000      7.000000       7.000000\n",
+       "max       17.000000     13.000000      16.000000"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "summaries = {\n",
+    "    'MorF': morf['#OGs'].describe(),\n",
+    "    'emapper': emapper['#OGs'].describe(),\n",
+    "    'emapper-hmmer': hmmer['#OGs'].describe(),\n",
+    "}\n",
+    "\n",
+    "pd.DataFrame(summaries)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "86e04dcb-7680-4471-8a45-b0d68ad67b31",
+   "metadata": {},
+   "source": [
+    "Interesting to see that the standard deviation is essentially the same in all distributions! MorF annotates, on average, 3 more OGs per protein. This is probably a product of how it works, namely by getting a best hit and assigning all its information to the query protein, but since standard `emapper` and `emapper-hmmer` are essentially the same distribution this may be more important.\n",
+    "\n",
+    "# How much does each modality annotate?\n",
+    "\n",
+    "We will visualize the different subsets of annotation overlap with an upset plot."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "69d79788-2835-4d54-a97f-841877b1b090",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "total_proteins = 41943"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "bb1646f2-8a27-4bbc-9a2b-20e7ed45d18c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sequence = np.intersect1d(emapper['protein_id'], hmmer['protein_id'])\n",
+    "in_all = np.intersect1d(sequence, morf['protein_id'])\n",
+    "\n",
+    "hmmer_morf = np.intersect1d(morf['protein_id'], hmmer['protein_id'])\n",
+    "hmmer_morf = np.setdiff1d(hmmer_morf, emapper['protein_id'])\n",
+    "\n",
+    "emapper_morf = np.intersect1d(morf['protein_id'], emapper['protein_id'])\n",
+    "emapper_morf = np.setdiff1d(emapper_morf, hmmer['protein_id'])\n",
+    "\n",
+    "emapper_hmmer = np.intersect1d(hmmer['protein_id'], emapper['protein_id'])\n",
+    "emapper_hmmer = np.setdiff1d(emapper_hmmer, morf['protein_id'])\n",
+    "\n",
+    "morf_only = np.setdiff1d(morf['protein_id'], hmmer['protein_id'])\n",
+    "morf_only = np.setdiff1d(morf_only, emapper['protein_id'])\n",
+    "\n",
+    "hmmer_only = np.setdiff1d(hmmer['protein_id'], morf['protein_id'])\n",
+    "hmmer_only = np.setdiff1d(hmmer_only, emapper['protein_id'])\n",
+    "\n",
+    "emapper_only = np.setdiff1d(emapper['protein_id'], morf['protein_id'])\n",
+    "emapper_only = np.setdiff1d(emapper_only, hmmer['protein_id'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "993e7652-aff9-4880-a54f-4fa22e3fc169",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "all_annotated = np.concatenate((morf['protein_id'], hmmer['protein_id'], emapper['protein_id']))\n",
+    "all_unique = np.unique(all_annotated)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "85c67750-3125-412a-8179-71b0401858cb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "counts = [\n",
+    "    total_proteins - len(all_unique),\n",
+    "    len(morf_only),\n",
+    "    len(hmmer_only),\n",
+    "    len(hmmer_morf),\n",
+    "    len(emapper_only),\n",
+    "    len(emapper_morf),\n",
+    "    len(emapper_hmmer),\n",
+    "    len(in_all),\n",
+    "]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "d3b9c02c-e388-4cfb-9255-d824f25a368a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "result = {\n",
+    "    'emapper': [False, False, False, False, True, True, True, True],\n",
+    "    'emapper-hmmer': [False, False, True, True, False, False, True, True],\n",
+    "    'MorF': [False, True, False, True, False, True, False, True],\n",
+    "    'counts': counts\n",
+    "}\n",
+    "\n",
+    "overlap = pd.DataFrame(result)\n",
+    "overlap.set_index(['emapper', 'emapper-hmmer', 'MorF'], inplace=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "b69d5175-0d57-475c-8f46-62be8265beab",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAhMAAAF0CAYAAACZurtbAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjYuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8o6BhiAAAACXBIWXMAAA9hAAAPYQGoP6dpAABxJ0lEQVR4nO3deVxU1f8/8NdsDIswMOwgIC6RhpZLirjiAi6oqamlH8IlXHKJ1DLrY+KSlpVaWmm5p4mZS5lKYqnJB3BB0VxzYXFhh2FnmOX8/vDH/ToOCMzcYZDez8djHo+Ze889933v3Jn7vueee6+AMcZACCGEEGIgobkDIIQQQsizjZIJQgghhBiFkglCCCGEGIWSCUIIIYQYhZIJQgghhBiFkglCCCGEGIWSCUIIIYQYhZIJQgghhBiFkglCCCGEGIWSCULM4NKlSxAIBLh58yYAYM2aNWjRooVZY7p27RqioqKQmppqcB3btm2DQCAwqo6m6ptvvsG2bduMqmPFihU4ePAgL/E8LjU1FQKBoNb4qr7f8+fP8x5DYyAQCDBr1ixzh/FMomSCEDM4d+4c7O3t8dxzzwEAEhMT0bVrV7PGdO3aNSxZssSoRGDo0KFISEiAu7s7f4E1EY05mSDEWJRMEGIG586dQ9euXSEQCACYJplgjKG8vJzXOmvj7OyMgIAASKXSBp0vIeT/NPTvHqBkghCzqEomACAzMxPp6enVJhMTJ05Es2bNcPXqVfTv3x82NjZwdnbGrFmzUFZWplO2qol2w4YNaNu2LaRSKbZv3w4AiIuLQ//+/WFrawtra2sEBgbi8OHD3LTbtm3DmDFjAABBQUEQCAR6zd7Hjx9H//79YWdnB2tra/To0QN//PGHTgzVnebo27cv/P39ce7cOfTq1QvW1tZo2bIlPvnkE2i1Wq6cVqvF8uXL4efnBysrK9jb26NDhw748ssvn7ouKyoqMG/ePLz00kuQyWSQy+Xo3r07fvnlF72yVevohx9+QNu2bWFtbY0XX3wRv/32m065qKgoCAQCXL16Fa+//jpkMhlcXV0xefJkFBYW6s1/4cKF8PX1hYWFBTw9PTFz5kwoFAquTIsWLXD16lWcOnWKW7dVp7XqGr9AIEBpaSm2b9/O1dG3b19ufGZmJqZNm4bmzZvDwsICvr6+WLJkCdRqtU49Dx8+xNixY2FrawuZTIZx48YhMzPzqev4SQUFBZg0aRLkcjlsbGwwbNgw3L17lxu/bNkyiMVi3Lt3T2/ayZMnw9HRERUVFU+dx/nz5zF8+HDI5XJYWlqiY8eO+Omnn3TK5OTk4K233kK7du3QrFkzuLi4oF+/fjh9+rRefUqlEkuXLkXbtm1haWkJR0dHBAUFIT4+Xq9sbdtHdeq6/db2WwT+b/t7UnW/rxYtWiA0NBT79+9Hx44dYWlpiSVLlgAAHjx4gKlTp8LLywsWFhbw8PDAq6++iqysLG76oqIizJ8/X2f7jYyMRGlpaa3LrIMRQhqEj48PA1DrKzw8nJsmPDycWVhYMG9vb/bxxx+zY8eOsaioKCYWi1loaKhO/QCYp6cn69ChA/vxxx/Zn3/+ya5cucJOnjzJJBIJ69y5M9uzZw87ePAgCw4OZgKBgEVHRzPGGMvOzmYrVqxgANjXX3/NEhISWEJCAsvOzmaMMfbDDz8wgUDAXnnlFbZ//3526NAhFhoaykQiETt+/DgXw9atWxkAlpKSwg3r06cPc3R0ZG3atGEbNmxgsbGx7K233mIA2Pbt27lyK1euZCKRiC1evJj98ccfLCYmhq1du5ZFRUU9db0qFAo2ceJE9sMPP7A///yTxcTEsPnz5zOhUKhTf9U6atGiBevatSv76aef2JEjR1jfvn2ZWCxmd+7c4cotXryYAWB+fn7so48+YrGxsWz16tVMKpWySZMmceW0Wi0LCQlhYrGYLVq0iB07dox9/vnnzMbGhnXs2JFVVFQwxhi7cOECa9myJevYsSO3bi9cuFCv+BMSEpiVlRUbMmQIV8fVq1cZY4xlZGQwLy8v5uPjwzZu3MiOHz/Oli1bxqRSKZs4cSJXR1lZGWvbti2TyWRs3bp17Pfff2dz5sxh3t7eDADbunXrU9d11ffr5eXFJk+ezI4ePcq+++475uLiwry8vFhBQQFjjLGsrCwmlUrZhx9+qDN9Xl4es7KyYu++++5T5/Pnn38yCwsL1qtXL7Znzx4WExPDJk6cqBfjjRs32IwZM1h0dDQ7efIk++2339iUKVOYUChkJ06c4MqpVCoWFBTExGIxmz9/Pjty5Aj79ddf2QcffMB2797Nlavr9lGdumy/dfktMvZ/219N6//x35ePjw9zd3dnLVu2ZFu2bGEnTpxgZ8+eZffv32fu7u7MycmJrV69mh0/fpzt2bOHTZ48mV2/fp0xxlhpaSl76aWXdMp8+eWXTCaTsX79+jGtVvvUZX4cJROENJCrV6+yixcvslWrVjELCwt27tw5dvHiRfbKK6+wHj16sIsXL7KLFy+ytLQ0bprw8HAGgH355Zc6dX388ccMAIuLi+OGAWAymYzl5+frlA0ICGAuLi6suLiYG6ZWq5m/vz9r3rw594exd+9eBkDnT5ixR384crmcDRs2TGe4RqNhL774IuvatSs3rKZkAgA7c+aMzvTt2rVjISEh3OfQ0FD20ksvPW0V1olarWYqlYpNmTKFdezYUWccAObq6sqKioq4YZmZmUwoFLKVK1dyw6r+zFetWqUz/VtvvcUsLS25dRYTE1NtuT179jAA7LvvvuOGvfDCC6xPnz5GxW9jY6OTbFaZNm0aa9asmc62wxhjn3/+OQPAJR3ffvstA8B++eUXnXIRERH1SiZGjhypM/x///sfA8CWL1/ODQsPD2cuLi5MqVRywz799FMmFAp1to/qPP/886xjx45MpVLpDA8NDWXu7u5Mo9FUO13Vuuvfv79OjDt27GAA2Pfff//U+dZ1+6hOXbbfuv4W65tMiEQidvPmTZ2ykydPZhKJhF27dq3GeFauXMmEQiE7d+6czvCff/6ZAWBHjhx56vI8jk5zENJA2rVrh5deegkPHz7Eyy+/jC5duuCll17CP//8g4EDB+Kll17CSy+9BG9vb71pJ0yYoPN5/PjxAIATJ07oDO/Xrx8cHBy4z6WlpThz5gxeffVVNGvWjBsuEokQFhaG+/fvc1eU1CQ+Ph75+fkIDw+HWq3mXlqtFoMGDcK5c+dqbRJ1c3PTO43ToUMHpKWlcZ+7du2KS5cu4a233sLvv/+OoqKip9b5uL1796JHjx5o1qwZxGIxJBIJNm/ejOvXr+uVDQoKgq2tLffZ1dUVLi4uOrFUGT58uF7MFRUVyM7OBgD8+eefAB6djnrcmDFjYGNjo3caiI/4q/Pbb78hKCgIHh4eOt/R4MGDAQCnTp0C8Gh7sbW11Vuuqu2prp7cHgMDA+Hj46OzPb799tvIzs7G3r17ATw6DfDtt99i6NChT71y6fbt27hx4wY3j8eXZ8iQIcjIyNDZZjds2IBOnTrB0tKSW3d//PGHzro7evQoLC0tMXny5FqXrT7bx+Nq2375+C3WpEOHDlxn7ipHjx5FUFAQ2rZtW+N0v/32G/z9/fHSSy/prOeQkBAIBAKcPHmyzjFQMkFIA9BoNNwP9dSpU+jZsyfUajWys7Nx/fp19OjRA2q1GhqNRm9asVgMR0dHnWFubm4AgLy8PJ3hT15FUVBQAMZYtVdXeHh4VFvHk6rOr7766quQSCQ6r08//RSMMeTn5z+1jifjBwCpVKrTUWzhwoX4/PPPkZiYiMGDB8PR0RH9+/ev9TLE/fv3Y+zYsfD09MTOnTuRkJCAc+fOYfLkydWel69LLDWVrepYWlU2Ly8PYrEYzs7OOuUEAgHc3NxqXbeGxF+drKwsHDp0SO/7eeGFFwAAubm5XLyurq5601dtT3VVXfknl7djx47o1asXvv76awCPdlypqam1XnpZtb3Nnz9fb3neeustneVZvXo1ZsyYgW7dumHfvn1ITEzEuXPnMGjQIJ3vMycnBx4eHhAKa9/l1Wf7eFxt2y8fv8WaVFdnTk4Omjdv/tTpsrKycPnyZb31bGtrC8YYt57rQlzvqAkh9da/f3/u6BAALl68iE8//ZT7PHDgQABAnz599I4G1Go18vLydP7kqjrMPfnH92SnLQcHBwiFQmRkZOjF9PDhQwCAk5PTU2OvGr9u3ToEBARUW6a6HVR9icVizJ07F3PnzoVCocDx48fxwQcfICQkBPfu3YO1tXW10+3cuRO+vr7Ys2ePzvIrlUqjY6qNo6Mj1Go1cnJydBIKxhgyMzPx8ssv11oHH/E7OTmhQ4cO+Pjjj6sdX7WzcnR0xNmzZ/XG17cDZnXlMzMz0bp1a51hc+bMwZgxY3DhwgWsX78ezz33HLet16Rqe1u4cCFGjRpVbRk/Pz8Aj9Zd37598e233+qMLy4u1vns7OyMuLg4aLXaOiUUhqht+63Pb9HS0hLAo23g8Sujatq5V9dZ09nZGffv339qzE5OTrCyssKWLVtqHF9X1DJBSAPYuHEjzp07hxUrVsDKyoo7gho2bBh69+6Nc+fO4dy5c9i4cWO10+/atUvn848//ggAOr35q2NjY4Nu3bph//79OkdWWq0WO3fuRPPmzbnm0SePuqv06NED9vb2uHbtGrp06VLty8LCol7rozb29vZ49dVXMXPmTOTn5z/13hcCgQAWFhY6f6iZmZnVXs3Bt/79+wN4tFN73L59+1BaWsqNB2o+uq1P/DXVERoaiitXrqBVq1bVfj9VyURQUBCKi4vx66+/6kxftT3V1ZPbY3x8PNLS0vS2x5EjR8Lb2xvz5s3D8ePH8dZbb1W743ucn58f2rRpg0uXLtW4vVWdhhAIBHqXIV++fBkJCQk6wwYPHoyKigqj7/NRV9Vtv/X5LVadBrp8+bJOvYcOHapzDIMHD8aJEyeeeuokNDQUd+7cgaOjY7XruT430qOWCUIaQNWR1DfffIP+/fujW7duAB61ULz//vvo0qVLjdNaWFjgiy++QElJCV5++WXEx8dj+fLlGDx4MHr27FnrvFeuXImBAwciKCgI8+fPh4WFBb755htcuXIFu3fv5v7c/f39AQDfffcdbG1tYWlpCV9fXzg6OmLdunUIDw9Hfn4+Xn31Vbi4uCAnJweXLl1CTk6O3pGhIYYNGwZ/f3906dIFzs7OSEtLw9q1a+Hj44M2bdrUOF3VZXFvvfUWXn31Vdy7dw/Lli2Du7s7bt26ZXRcTzNw4ECEhIRgwYIFKCoqQo8ePXD58mUsXrwYHTt2RFhYGFe2ffv2iI6Oxp49e9CyZUtYWlqiffv29Yq/ffv2OHnyJA4dOgR3d3fY2trCz88PS5cuRWxsLAIDAzFnzhz4+fmhoqICqampOHLkCDZs2IDmzZvjjTfewJo1a/DGG2/g448/Rps2bXDkyBH8/vvv9Vru8+fP480338SYMWNw7949fPjhh/D09OROQ1QRiUSYOXMmFixYABsbG72+JTXZuHEjBg8ejJCQEEycOBGenp7Iz8/H9evXceHCBa4fRmhoKJYtW4bFixejT58+uHnzJpYuXQpfX1+dS2Jff/11bN26FdOnT8fNmzcRFBQErVaLM2fOoG3btnjttdfqtfzVqcv2W9ff4pAhQyCXyzFlyhQsXboUYrEY27Ztq/ZS25osXboUR48eRe/evfHBBx+gffv2UCgUiImJwdy5c/H8888jMjIS+/btQ+/evfHOO++gQ4cO0Gq1SE9Px7FjxzBv3jzuv6pWde6qSQgxikajYc7Ozmzjxo2MsUeXCwLQ64H/uPDwcGZjY8MuX77M+vbty6ysrJhcLmczZsxgJSUlOmUBsJkzZ1Zbz+nTp1m/fv2YjY0Ns7KyYgEBAezQoUN65dauXct8fX2ZSCTS691/6tQpNnToUCaXy5lEImGenp5s6NChbO/evVyZmq7meOGFF6pdNh8fH+7zF198wQIDA5mTkxN3OeyUKVNYampqjeunyieffMJatGjBpFIpa9u2Lfv++++r7RFf0zry8fHRuUqiatqcnBydctUtX3l5OVuwYAHz8fFhEomEubu7sxkzZnCXSVZJTU1lwcHBzNbWlgHQWfa6xp+cnMx69OjBrK2tGQCdq0NycnLYnDlzmK+vL5NIJEwul7POnTuzDz/8UGdbuX//Phs9ejRr1qwZs7W1ZaNHj2bx8fH1uprj2LFjLCwsjNnb23OXq966davaaVJTUxkANn369KfW/aRLly6xsWPHMhcXFyaRSJibmxvr168f27BhA1dGqVSy+fPnM09PT2Zpack6derEDh48qLdtMfboe/roo49YmzZtmIWFBXN0dGT9+vVj8fHxXJm6bh/Vqev2W9ff4tmzZ1lgYCCzsbFhnp6ebPHixWzTpk3VXs0xdOjQamO6d+8emzx5MnNzc2MSiYR5eHiwsWPHsqysLK5MSUkJ++9//8v8/PyYhYUFk8lkrH379uydd95hmZmZT13mxwkYY6zOqQ4hpEFNnDgRP//8M0pKSswdCiEGWbduHebMmYMrV65wHUJJ00OnOQghhPDu4sWLSElJwdKlSzFixAhKJJo4SiYIIYTwbuTIkcjMzESvXr2wYcMGc4dDTIxOcxBCCCHEKHRpKCGEEEKMQskEIYQQQoxCyQQhhBBCjELJBCGNGGMMRUVFoK5NhJDGjJIJQhqx4uJiyGQyvWcNEEJIY0LJBCGEEEKMQskEIYQQQoxCyQQhhBBCjELJBCGEEEKMQskEIYQQQoxCyQQhhBBCjELJBCGEEEKMQskEIYQQQoxCjyAnhBBCzCA9PR25ublG1eHk5ARvb2+eIjIcJROEEEJIA0tPT4efnx8qKiqMqsfS0hI3b940e0JBpzkIIYSQBpabm2t0IgEAFRUVRrdu8IGSCUIIIYQYhZIJQgghhBiFkglCCCGEGIWSCUIIIYQYhZIJQgghhBiFkglCCCGEGIWSCUIIIYQYhZIJQgghhBiFkglCCCGEGIWSCdKk/PXXXxg2bBg8PDwgEAhw8OBBnfETJ06EQCDQeQUEBOiUUSqVmD17NpycnGBjY4Phw4fj/v37OmUKCgoQFhYGmUwGmUyGsLAwKBQKnTLp6ekYNmwYbGxs4OTkhDlz5qCystIUi00IIWZFyQRpUkpLS/Hiiy9i/fr1NZYZNGgQMjIyuNeRI0d0xkdGRuLAgQOIjo5GXFwcSkpKEBoaCo1Gw5UZP348kpOTERMTg5iYGCQnJyMsLIwbr9FoMHToUJSWliIuLg7R0dHYt28f5s2bx/9CE0KIuTFCmigA7MCBAzrDwsPD2YgRI2qcRqFQMIlEwqKjo7lhDx48YEKhkMXExDDGGLt27RoDwBITE7kyCQkJDAC7ceMGY4yxI0eOMKFQyB48eMCV2b17N5NKpaywsLDOy1BYWMgA1GsaQkjjl5SUxADw8kpKSjL34jB6aij51zl58iRcXFxgb2+PPn364OOPP4aLiwsAICkpCSqVCsHBwVx5Dw8P+Pv7Iz4+HiEhIUhISIBMJkO3bt24MgEBAZDJZIiPj4efnx8SEhLg7+8PDw8PrkxISAiUSiWSkpIQFBRUbWxKpRJKpZL7XFRUBABQqVRQqVS8rgdCiPmo1Wpe63ra/4NEIuFtXjWhZIL8qwwePBhjxoyBj48PUlJSsGjRIvTr1w9JSUmQSqXIzMyEhYUFHBwcdKZzdXVFZmYmACAzM5NLPh7n4uKiU8bV1VVnvIODAywsLLgy1Vm5ciWWLFmiN/zYsWOwtrau9/ISQhqnO3fu8FZXXFwcMjIyahw/YsQI3uZVE0omyL/KuHHjuPf+/v7o0qULfHx8cPjwYYwaNarG6RhjEAgE3OfH3xtT5kkLFy7E3Llzuc9FRUXw8vJCcHAw7Ozsal4wQsgz5eLFi7zV1bNnT3Ts2JG3+gxByQT5V3N3d4ePjw9u3boFAHBzc0NlZSUKCgp0Wieys7MRGBjIlcnKytKrKycnh2uNcHNzw5kzZ3TGFxQUQKVS6bVYPE4qlUIqleoNl0gkDdJUSQhpGGIxf7tfsVhs9v8HupqD/Kvl5eXh3r17cHd3BwB07twZEokEsbGxXJmMjAxcuXKFSya6d++OwsJCnD17litz5swZFBYW6pS5cuWKTtPjsWPHIJVK0blz54ZYNEIIaTDUMkGalJKSEty+fZv7nJKSguTkZMjlcsjlckRFRWH06NFwd3dHamoqPvjgAzg5OWHkyJEAAJlMhilTpmDevHlwdHSEXC7H/Pnz0b59ewwYMAAA0LZtWwwaNAgRERHYuHEjAGDq1KkIDQ2Fn58fACA4OBjt2rVDWFgYPvvsM+Tn52P+/PmIiIig0xWEkKbHzFeTEMKrEydOVHvpVHh4OCsrK2PBwcHM2dmZSSQS5u3tzcLDw1l6erpOHeXl5WzWrFlMLpczKysrFhoaqlcmLy+PTZgwgdna2jJbW1s2YcIEVlBQoFMmLS2NDR06lFlZWTG5XM5mzZrFKioq6rU8dGkoIU1TU7s0VMAYYw2XuhBC6qOoqAgymQyFhYXUokFIE3LhwgXeTnkmJSWhU6dOvNRlKOozQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBGoUffvgBPXr0gIeHB9LS0gAAa9euxS+//GLmyAghhNSGkglidt9++y3mzp2LIUOGQKFQQKPRAADs7e2xdu1a8wZHCCGkVpRMELNbt24dvv/+e3z44YcQiUTc8C5duuDvv/82Y2SEEELqgpIJYnYpKSno2LGj3nCpVIrS0lIzREQIIaQ+KJkgZufr64vk5GS94UePHkW7du0aPiBCCCH1QskEMbt3330XM2fOxJ49e8AYw9mzZ/Hxxx/jgw8+wLvvvluvuv766y8MGzYMHh4eEAgEOHjwIDdOpVJhwYIFaN++PWxsbODh4YE33ngDDx8+1Kmjb9++EAgEOq/XXntNp0xBQQHCwsIgk8kgk8kQFhYGhUKhUyY9PR3Dhg2DjY0NnJycMGfOHFRWVtZreQgh5FkgNncAhEyaNAlqtRrvvfceysrKMH78eHh6euLLL7/U24nXprS0FC+++CImTZqE0aNH64wrKyvDhQsXsGjRIrz44osoKChAZGQkhg8fjvPnz+uUjYiIwNKlS7nPVlZWOuPHjx+P+/fvIyYmBgAwdepUhIWF4dChQwAAjUaDoUOHwtnZGXFxccjLy0N4eDgYY1i3bl29lokQQho9RkgjkpOTw7KysnipCwA7cODAU8ucPXuWAWBpaWncsD59+rC33367xmmuXbvGALDExERuWEJCAgPAbty4wRhj7MiRI0woFLIHDx5wZXbv3s2kUikrLCys8zIUFhYyAPWahhDS+CUlJTEAvLySkpLMvTiMWiaI2S1duhQ9e/ZEv3794OTkxA0vLS3FF198gY8++shk8y4sLIRAIIC9vb3O8F27dmHnzp1wdXXF4MGDsXjxYtja2gIAEhISIJPJ0K1bN658QEAAZDIZ4uPj4efnh4SEBPj7+8PDw4MrExISAqVSiaSkJAQFBVUbj1KphFKp5D4XFRUBeHSKRqVS8bXYhBAzU6vVvNb1tP8HiUTC27xqQskEMbuoqChIJBKsXLkSc+fO5YaXlJRgyZIlJksmKioq8P7772P8+PGws7Pjhk+YMAG+vr5wc3PDlStXsHDhQly6dAmxsbEAgMzMTLi4uOjV5+LigszMTK6Mq6urzngHBwdYWFhwZaqzcuVKLFmyRG/4sWPHYG1tbdByEkIanzt37vBWV1xcHDIyMmocP2LECN7mVRNKJkijsGPHDsyaNQuXL1/Gd999BwsLC5POT6VS4bXXXoNWq8U333yjMy4iIoJ77+/vjzZt2qBLly64cOECOnXqBAAQCAR6dTLGdIbXpcyTFi5cqJNQFRUVwcvLC8HBwToJDyHk2Xbx4kXe6urZs2e1l9c3JEomSKMQFBSExMREDBs2DH379sWBAwdMNi+VSoWxY8ciJSUFf/75Z6076U6dOkEikeDWrVvo1KkT3NzckJWVpVcuJyeHa41wc3PDmTNndMYXFBRApVLptVg8TiqVQiqV6g2XSCQN0lRJCGkYYjF/u1+xWGz2/we6NJSYXdWReqtWrZCYmAg7Ozt06dJF7woLPlQlErdu3cLx48fh6OhY6zRXr16FSqWCu7s7AKB79+4oLCzE2bNnuTJnzpxBYWEhAgMDuTJXrlzRaXo8duwYpFIpOnfuzPNSEUKIeVHLBDE7xhj33s7ODkeOHEFkZCReeeWVetdVUlKC27dvc59TUlKQnJwMuVwODw8PvPrqq7hw4QJ+++03aDQarv+CXC6HhYUF7ty5g127dmHIkCFwcnLCtWvXMG/ePHTs2BE9evQAALRt2xaDBg1CREQENm7cCODRpaGhoaHw8/MDAAQHB6Ndu3YICwvDZ599hvz8fMyfPx8RERF0uoIQ0vSY+WoSQti2bdtYRUWF3vAtW7awiRMn1quuEydOVHvpVHh4OEtJSanx0qoTJ04wxhhLT09nvXv3ZnK5nFlYWLBWrVqxOXPmsLy8PJ355OXlsQkTJjBbW1tma2vLJkyYwAoKCnTKpKWlsaFDhzIrKysml8vZrFmzql3Op6FLQwlpmprapaECxh47LCSENCpFRUWQyWQoLCykFg1CmpALFy7wdsozKSmJ6xxuLnSag5jFV199halTp8LS0hJfffVVjeUEAgFmz57dgJERQgipL2qZIGbh6+uL8+fPw9HREb6+vjWWEwgEuHv3bgNG1rhQywQhTRO1TBDCg5SUlGrfE0IIefbQpaGk0dFoNEhOTkZBQYG5QyGEEFIHlEwQs4uMjMTmzZsBPEokevfujU6dOsHLywsnT540b3CEEEJqRckEMbuff/4ZL774IgDg0KFDSE1NxY0bNxAZGYkPP/zQzNERQgipDSUTxOxyc3Ph5uYGADhy5AjGjBmD5557DlOmTMHff/9t5ugIIYTUhpIJYnaurq64du0aNBoNYmJiMGDAAABAWVkZRCKRmaMjhBBSG7qag5jdpEmTMHbsWLi7u0MgEGDgwIEAHj3v4vnnnzdzdI1feno6cnNzjarDyckJ3t7ePEVECPm3oWSCmF1UVBT8/f1x7949jBkzhntqpkgkwvvvv2/m6Bq39PR0+Pn5oaKiwqh6LC0tcfPmTUooCCEGoWSCNAqvvvqq3rDw8HAzRPJsyc3NNTqRAICKigrk5uZSMkEIMQj1mSCEEEKIUSiZIIQQQohRKJkghBBCiFEomSCEEEKIUagDJmkUtFotbt++jezsbGi1Wp1xvXv3NlNUhBBC6oKSCWJ2iYmJGD9+PNLS0sAY0xknEAig0WjMFBkhhJC6oGSCmN306dPRpUsXHD58mLtxFSGEkGcH9ZkgZnfr1i2sWLECbdu2hb29PWQymc6rPv766y8MGzYMHh4eEAgEOHjwoM54xhiioqLg4eEBKysr9O3bF1evXtUpo1QqMXv2bDg5OcHGxgbDhw/H/fv3dcoUFBQgLCyMizEsLAwKhUKnTHp6OoYNGwYbGxs4OTlhzpw5qKysrNfyEELIs4CSCWJ23bp1w+3bt3mpq7S0FC+++CLWr19f7fhVq1Zh9erVWL9+Pc6dOwc3NzcMHDgQxcXFXJnIyEgcOHAA0dHRiIuLQ0lJCUJDQ3VOt4wfPx7JycmIiYlBTEwMkpOTERYWxo3XaDQYOnQoSktLERcXh+joaOzbtw/z5s3jZTkJIaRRYYSY2f79+1m7du3Y1q1b2fnz59mlS5d0XoYCwA4cOMB91mq1zM3NjX3yySfcsIqKCiaTydiGDRsYY4wpFAomkUhYdHQ0V+bBgwdMKBSymJgYxhhj165dYwBYYmIiVyYhIYEBYDdu3GCMMXbkyBEmFArZgwcPuDK7d+9mUqmUFRYW1nkZCgsLGYAap0lKSmIAeHklJSXVOS5CiHGa2m+X+kwQsxs9ejQAYPLkydwwgUAAxhivHTBTUlKQmZmJ4OBgbphUKkWfPn0QHx+PadOmISkpCSqVSqeMh4cH/P39ER8fj5CQECQkJEAmk6Fbt25cmYCAAMhkMsTHx8PPzw8JCQnw9/eHh4cHVyYkJARKpRJJSUkICgqqNkalUgmlUsl9LioqAgCoVCqoVCq98mq12vAVUk1d1c2DEMK/hvztSiQS3uZVE0omiNmlpKQ0yHwyMzMBPHrk+eNcXV2RlpbGlbGwsICDg4NemarpMzMz4eLiole/i4uLTpkn5+Pg4AALCwuuTHVWrlyJJUuW6A0/duwYrK2t9YbfuXOnxrrqKy4uDhkZGbzVRwipWUP+dkeMGMHbvGpCyQQxOx8fnwad35NXi1S1gDzNk2WqK29ImSctXLgQc+fO5T4XFRXBy8sLwcHBsLOz0yt/8eLFp8ZdHz179kTHjh15q48QUrOm9tulZII0Cnfu3MHatWtx/fp1CAQCtG3bFm+//TZatWrF2zzc3NwAPGo1cHd354ZnZ2dzrQhubm6orKxEQUGBTutEdnY2AgMDuTJZWVl69efk5OjUc+bMGZ3xBQUFUKlUei0Wj5NKpdwj2B8nkUiqbaoUi/n7CYvF4gZpDiWENL3fLl3NQczu999/R7t27XD27Fl06NAB/v7+OHPmDF544QXExsbyNh9fX1+4ubnp1FlZWYlTp05xiULnzp0hkUh0ymRkZODKlStcme7du6OwsBBnz57lypw5cwaFhYU6Za5cuaLT9Hjs2DFIpVJ07tyZt2UihJDGgFomiNm9//77eOedd/DJJ5/oDV+wYAEGDhxY57pKSkp0LjNNSUlBcnIy5HI5vL29ERkZiRUrVqBNmzZo06YNVqxYAWtra4wfPx4AIJPJMGXKFMybNw+Ojo6Qy+WYP38+2rdvjwEDBgAA2rZti0GDBiEiIgIbN24EAEydOhWhoaHw8/MDAAQHB6Ndu3YICwvDZ599hvz8fMyfPx8RERHVnq4ghJBnmlmvJSGEMSaVStk///yjN/zmzZtMKpXWq64TJ05Ue+lUeHg4Y+zR5aGLFy9mbm5uTCqVst69e7O///5bp47y8nI2a9YsJpfLmZWVFQsNDWXp6ek6ZfLy8tiECROYra0ts7W1ZRMmTGAFBQU6ZdLS0tjQoUOZlZUVk8vlbNasWayioqJey0OXhhLSNDW1366AsScehkBIA/Py8sLq1asxZswYneE//fQT5s+fj/T0dDNFZn5FRUWQyWQoLCystkXjwoULvJ02SUpKQqdOnXipixDydE3tt0unOYjZRUREYOrUqbh79y4CAwMhEAgQFxeHTz/9lO4YSQghzwBKJojZLVq0CLa2tvjiiy+wcOFCAI9uFBUVFYU5c+aYOTpCCCG1oWSCmJ1AIMA777yDd955h3tGhq2trZmjIoQQUleUTJBGhZIIQgh59lAyQcyiU6dO+OOPP+Dg4ICOHTs+9a6QFy5caMDICCGE1BclE8QsRowYwd3pccSIEbXezpoQQkjjRckEMYvFixdz76OioswXCCGEEKPR7bSJ2bVs2RJ5eXl6wxUKBVq2bGmGiAghhNQHJRPE7FJTU6HRaPSGK5VK3L9/3wwREUIIqQ86zUHM5tdff+Xe//7775DJZNxnjUaDP/74A76+vuYIjRBCSD1QMkHM5pVXXgHw6D4T4eHhOuMkEglatGiBL774wgyREUIIqQ9KJojZaLVaAI8eDX7u3Dk4OTmZOSJCCCGGoGSCmF1KSoq5QyCEEGIE6oBJzG7OnDn46quv9IavX78ekZGRDR8QIYSQeqFkgpjdvn370KNHD73hgYGB+Pnnn80QESGEkPqgZIKYXV5ens6VHFXs7OyQm5trhogIIYTUByUTxOxat26NmJgYveFHjx6lm1YRQsgzgDpgErObO3cuZs2ahZycHPTr1w8A8Mcff+CLL77A2rVrzRscIYSQWlHLBDG7yZMn44svvsDmzZsRFBSEoKAg7Ny5E99++y0iIiJ4n1+LFi0gEAj0XjNnzgQATJw4UW9cQECATh1KpRKzZ8+Gk5MTbGxsMHz4cL27dRYUFCAsLAwymQwymQxhYWFQKBS8Lw8hhJgbJROkUZgxYwbu37+PrKwsFBUV4e7du3jjjTdMMq9z584hIyODe8XGxgIAxowZw5UZNGiQTpkjR47o1BEZGYkDBw4gOjoacXFxKCkpQWhoqM5twcePH4/k5GTExMQgJiYGycnJCAsLM8kyEUKIOdFpDtIoqNVqnDx5Enfu3MH48eMBAA8fPoSdnR2aNWvG67ycnZ11Pn/yySdo1aoV+vTpww2TSqVwc3OrdvrCwkJs3rwZP/zwAwYMGAAA2LlzJ7y8vHD8+HGEhITg+vXriImJQWJiIrp16wYA+P7779G9e3fcvHkTfn5+vC4TIYSYEyUTxOzS0tIwaNAgpKenQ6lUYuDAgbC1tcWqVatQUVGBDRs2mGzelZWV2LlzJ+bOnQuBQMANP3nyJFxcXGBvb48+ffrg448/houLCwAgKSkJKpUKwcHBXHkPDw/4+/sjPj4eISEhSEhIgEwm4xIJAAgICIBMJkN8fHyNyYRSqYRSqeQ+FxUVAQBUKhVUKpVeebVabdwKeKKu6uZBCOFfQ/52JRIJb/OqCSUTxOzefvttdOnSBZcuXYKjoyM3fOTIkXjzzTdNOu+DBw9CoVBg4sSJ3LDBgwdjzJgx8PHxQUpKChYtWoR+/fohKSkJUqkUmZmZsLCwgIODg05drq6uyMzMBABkZmZyycfjXFxcuDLVWblyJZYsWaI3/NixY7C2ttYbfufOnbouaq3i4uKQkZHBW32EkJo15G93xIgRvM2rJpRMELOLi4vD//73P1hYWOgM9/HxwYMHD0w6782bN2Pw4MHw8PDgho0bN4577+/vjy5dusDHxweHDx/GqFGjaqyLMabTuvH4+5rKPGnhwoWYO3cu97moqAheXl4IDg6GnZ2dXvmLFy/WvHD11LNnT3Ts2JG3+gghNWtqv11KJojZabVanY6LVe7fvw9bW1uTzTctLQ3Hjx/H/v37n1rO3d0dPj4+uHXrFgDAzc0NlZWVKCgo0GmdyM7ORmBgIFcmKytLr66cnBy4urrWOC+pVAqpVKo3XCKRVNtUKRbz9xMWi8UN0hxKCGl6v126moOY3cCBA3XuJyEQCFBSUoLFixdjyJAhJpvv1q1b4eLigqFDhz61XF5eHu7duwd3d3cAQOfOnSGRSLirQAAgIyMDV65c4ZKJ7t27o7CwEGfPnuXKnDlzBoWFhVwZQghpKqhlgpjdmjVrEBQUhHbt2qGiogLjx4/HrVu34OTkhN27d5tknlqtFlu3bkV4eLjOEUJJSQmioqIwevRouLu7IzU1FR988AGcnJwwcuRIAIBMJsOUKVMwb948ODo6Qi6XY/78+Wjfvj13dUfbtm0xaNAgREREYOPGjQCAqVOnIjQ0lK7kIA0uPT3d6FvTOzk5wdvbm6eISFNDyQQxOw8PDyQnJyM6OhpJSUnQarWYMmUKJkyYACsrK5PM8/jx40hPT8fkyZN1hotEIvz999/YsWMHFAoF3N3dERQUhD179uicclmzZg3EYjHGjh2L8vJy9O/fH9u2bYNIJOLK7Nq1C3PmzOGu+hg+fDjWr19vkuUhpCbp6enw8/NDRUWFUfVYWlri5s2blFCQagkYY8zcQRBCqldUVASZTIbCwsJqO2BeuHABnTt35mVeSUlJ6NSpEy91kcaDtpHGqal9L9Rngpjd9u3bcfjwYe7ze++9B3t7ewQGBiItLc2MkRFCCKkLSiaI2a1YsYI7nZGQkID169dj1apVcHJywjvvvGPm6AghhNSG+kwQs7t37x5at24N4NFNpF599VVMnToVPXr0QN++fc0bHCGEkFpRywQxu2bNmiEvLw/Aozs9Vl0RYWlpifLycnOGRgghpA6oZYKY3cCBA/Hmm2+iY8eO+Oeff7j7Ply9ehUtWrQwb3CEEEJqRS0TxOy+/vprBAYGIicnB/v27eOez5GUlITXX3/dzNERQgipDbVMELNSq9X48ssv8d5778HLy0tnXHUPvCKEENL4UMsEMSuxWIzPPvus2mdzEEIIeTZQMkHMbsCAATh58qS5wyCEEGIgOs1BzG7w4MFYuHAhrly5gs6dO8PGxkZn/PDhw80UGSGEkLqgZIKY3YwZMwAAq1ev1hsnEAjoFAghhDRylEwQs9NqteYOgRBCiBGozwRpVIx9siEhhJCGR8kEMTuNRoNly5bB09MTzZo1w927dwEAixYtwubNm80cHSGEkNpQMkHM7uOPP8a2bduwatUqWFhYcMPbt2+PTZs2mTEyQgghdUHJBDG7HTt24LvvvsOECRMgEom44R06dMCNGzfMGBkhhJC6oGSCmN2DBw+4p4Y+TqvVQqVSmSEiQggh9UHJBDG7F154AadPn9YbvnfvXnTs2NEMERFCCKkPSiaI2S1evBizZs3Cp59+Cq1Wi/379yMiIgIrVqzARx99xPv8oqKiIBAIdF5ubm7ceMYYoqKi4OHhASsrK/Tt2xdXr17VqUOpVGL27NlwcnKCjY0Nhg8fjvv37+uUKSgoQFhYGGQyGWQyGcLCwqBQKHhfHkIIMTdKJojZDRs2DHv27MGRI0cgEAjw0Ucf4fr16zh06BAGDhxoknm+8MILyMjI4F5///03N27VqlVYvXo11q9fj3PnzsHNzQ0DBw5EcXExVyYyMhIHDhxAdHQ04uLiUFJSgtDQUJ0bbI0fPx7JycmIiYlBTEwMkpOTERYWZpLlIYQQc6KbVpFGISQkBCEhIQ02P7FYrNMaUYUxhrVr1+LDDz/EqFGjAADbt2+Hq6srfvzxR0ybNg2FhYXYvHkzfvjhBwwYMAAAsHPnTnh5eeH48eMICQnB9evXERMTg8TERHTr1g0A8P3336N79+64efMm/Pz8GmxZCSHE1Khlgphdy5YtkZeXpzdcoVCgZcuWJpnnrVu34OHhAV9fX7z22mvcvS1SUlKQmZmJ4OBgrqxUKkWfPn0QHx8PAEhKSoJKpdIp4+HhAX9/f65MQkICZDIZl0gAQEBAAGQyGVeGEEKaCmqZIGaXmppa7fM3lEolHjx4wPv8unXrhh07duC5555DVlYWli9fjsDAQFy9ehWZmZkAAFdXV51pXF1dkZaWBgDIzMyEhYUFHBwc9MpUTZ+ZmQkXFxe9ebu4uHBlqqNUKqFUKrnPRUVFAACVSlXtlS1qtboui1wnarWarp5pgmgbaZwa8nuRSCS8zasmlEwQs/n111+597///jtkMhn3WaPR4I8//kCLFi14n+/gwYO59+3bt0f37t3RqlUrbN++HQEBAQAePWDscYwxvWFPerJMdeVrq2flypVYsmSJ3vBjx47B2tpab/idO3eeGlN9xMXFISMjg7f6SONA20jj1JDfy4gRI3ibV00omSBm88orrwB4tNMNDw/XGSeRSNCiRQt88cUXJo/DxsYG7du3x61bt7iYMjMz4e7uzpXJzs7mWivc3NxQWVmJgoICndaJ7OxsBAYGcmWysrL05pWTk6PX6vG4hQsXYu7cudznoqIieHl5ITg4GHZ2dnrlL168WL+FfYqePXvSpbhNEG0jjVNT+14omSBmU/W0UF9fX5w7dw5OTk5miUOpVOL69evo1asXfH194ebmhtjYWO7HWVlZiVOnTuHTTz8FAHTu3BkSiQSxsbEYO3YsACAjIwNXrlzBqlWrAADdu3dHYWEhzp49i65duwIAzpw5g8LCQi7hqI5UKoVUKtUbLpFIqm2qFIv5+wmLxeIGaQ4lDYu2kcapqX0vlEwQs0tJSWnQ+c2fPx/Dhg2Dt7c3srOzsXz5chQVFSE8PBwCgQCRkZFYsWIF2rRpgzZt2mDFihWwtrbG+PHjAQAymQxTpkzBvHnz4OjoCLlcjvnz56N9+/bc1R1t27bFoEGDEBERgY0bNwIApk6ditDQULqSgxDS5FAyQRqFP/74A3/88Qeys7O5FosqW7Zs4XVe9+/fx+uvv47c3Fw4OzsjICAAiYmJ8PHxAQC89957KC8vx1tvvYWCggJ069YNx44dg62tLVfHmjVrIBaLMXbsWJSXl6N///7Ytm2bzrNFdu3ahTlz5nBXfQwfPhzr16/ndVkIIaQxoGSCmN2SJUuwdOlSdOnSBe7u7rV2dDRWdHT0U8cLBAJERUUhKiqqxjKWlpZYt24d1q1bV2MZuVyOnTt3GhomIYQ8MyiZIGa3YcMGbNu2je4OSQghzyi6aRUxu8rKyqd2SiSEENK4UTJBzO7NN9/Ejz/+aO4wCCGEGIhOcxCzq6iowHfffYfjx4+jQ4cOepc4rV692kyRkfpIT09Hbm6uUXU4OTnB29ubp4gIIQ2FkglidpcvX8ZLL70EALhy5YrOOFN3xiT8SE9Ph5+fHyoqKoyqx9LSEjdv3qSEgpBnDCUTxOxOnDhh7hCIkXJzc41OJIBHrVS5ubmUTBDyjKE+E4QQQggxCrVMELMZNWpUncrt37/fxJEQQggxBiUTxGwef0ooIYSQZxclE8Rstm7dau4QCCGE8ID6TBBCCCHEKJRMEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEyQf52VK1fi5Zdfhq2tLVxcXPDKK6/g5s2bOmUmTpwIgUCg8woICNApo1QqMXv2bDg5OcHGxgbDhw/H/fv3dcoUFBQgLCwMMpkMMpkMYWFhUCgUpl5EQghpUJRMkH+dU6dOYebMmUhMTERsbCzUajWCg4NRWlqqU27QoEHIyMjgXkeOHNEZHxkZiQMHDiA6OhpxcXEoKSlBaGgoNBoNV2b8+PFITk5GTEwMYmJikJycjLCwsAZZTkIIaSh0O23yrxMTE6PzeevWrXBxcUFSUhJ69+7NDZdKpXBzc6u2jsLCQmzevBk//PADBgwYAADYuXMnvLy8cPz4cYSEhOD69euIiYlBYmIiunXrBgD4/vvv0b17d9y8eRN+fn4mWkJCCGlY1DJB/vUKCwsBAHK5XGf4yZMn4eLigueeew4RERHIzs7mxiUlJUGlUiE4OJgb5uHhAX9/f8THxwMAEhISIJPJuEQCAAICAiCTybgyhBDSFFDLBPlXY4xh7ty56NmzJ/z9/bnhgwcPxpgxY+Dj44OUlBQsWrQI/fr1Q1JSEqRSKTIzM2FhYQEHBwed+lxdXZGZmQkAyMzMhIuLi948XVxcuDJPUiqVUCqV3OeioiIAgEqlgkql0iuvVqvrv9A1UKvV1c6jrtM2hjiIPvpuGqeG/F4kEglv86oJJRPkX23WrFm4fPky4uLidIaPGzeOe+/v748uXbrAx8cHhw8fxqhRo2qsjzEGgUDAfX78fU1lHrdy5UosWbJEb/ixY8dgbW2tN/zOnTs1xlJfcXFxyMjIMGjaxhIH0UffTePUkN/LiBEjeJtXTSiZIP9as2fPxq+//oq//voLzZs3f2pZd3d3+Pj44NatWwAANzc3VFZWoqCgQKd1Ijs7G4GBgVyZrKwsvbpycnLg6upa7XwWLlyIuXPncp+Liorg5eWF4OBg2NnZ6ZW/ePFi7QtaRz179kTHjh0NmraxxEH00XfTODW174WSCfKvwxjD7NmzceDAAZw8eRK+vr61TpOXl4d79+7B3d0dANC5c2dIJBLExsZi7NixAICMjAxcuXIFq1atAgB0794dhYWFOHv2LLp27QoAOHPmDAoLC7mE40lSqRRSqVRvuEQiqbapUizm7ycsFosNbg5tLHEQffTdNE5N7XuhZIL868ycORM//vgjfvnlF9ja2nL9F2QyGaysrFBSUoKoqCiMHj0a7u7uSE1NxQcffAAnJyeMHDmSKztlyhTMmzcPjo6OkMvlmD9/Ptq3b89d3dG2bVsMGjQIERER2LhxIwBg6tSpCA0NpSs5CCFNCiUT5F/n22+/BQD07dtXZ/jWrVsxceJEiEQi/P3339ixYwcUCgXc3d0RFBSEPXv2wNbWliu/Zs0aiMVijB07FuXl5ejfvz+2bdsGkUjEldm1axfmzJnDXfUxfPhwrF+/3vQLSQghDYiSCfKvwxh76ngrKyv8/vvvtdZjaWmJdevWYd26dTWWkcvl2LlzZ71jJISQZwndZ4IQQgghRqFkghBCCCFGoWSCEEIIIUahZIIQQgghRqEOmISQJic9PR25ublG1eHk5ARvb2+eIiKkaaNkghDSpKSnp8PPzw8VFRVG1WNpaYmbN29SQkFIHdBpDkJIk5Kbm2t0IgEAFRUVRrduEPJvQS0ThBBCGgSdfmq6KJkghBBicnT6qWmj0xyEEEJMjk4/NW2UTBBCCCHEKJRMEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEwQYmLffPMNfH19YWlpic6dO+P06dPmDokQQnhFt9MmxIT27NmDyMhIfPPNN+jRowc2btyIwYMH49q1a3Q7YELMhJ4Rwj9KJggxodWrV2PKlCl48803AQBr167F77//jm+//RYrV640c3TE1Gin1fjQM0JMg5IJQkyksrISSUlJeP/993WGBwcHIz4+3kxRkYZCO63Gie9nhND38gglE4SYSG5uLjQaDVxdXXWGu7q6IjMzs9pplEollEol97moqAgAoFKpoFKp9Mqr1Wre4lWr1dXOo67TNoY4GlMsmZmZvO20MjMz4e7ubtD0jWV9UBzmi0MikfA2r5pQMkGIiQkEAp3PjDG9YVVWrlyJJUuW6A2XSCTV/iF07doVjDF+AjVCY4kDaDyxUBwUx7MQB1/oag5CTMTJyQkikUivFSI7O1uvtaLKwoULUVhYyL0UCgWys7Nha2vbECETQohBKJkgxEQsLCzQuXNnxMbG6gyPjY1FYGBgtdNIpVLY2dlxL5lMBmdn5xpbMgghpDGg0xyEmNDcuXMRFhaGLl26oHv37vjuu++Qnp6O6dOnmzs0QgjhDSUThJjQuHHjkJeXh6VLlyIjIwP+/v44cuQIfHx8zB0aIYTwRsCaUg8QQgghhDQ46jNBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjmDWZUKlU+OWXX6BSqcwZhkk0xWUihBBCqkMtE4QQQggxCiUThBBCCDEKJROEEEIIMYrY1DMoLi6ucZxarQYAlJSUQCw2eSgNSq1WN7llIoQQ8uyxtbU1+TyoZYIQQgghRqFkghBCCCFGoXZ4QpowlUoFjUYDgUAAiUQCodA8xw9qtZo7rSmRSCASicwSh0aj4S7bFovFDX4qsqysDPv378cPP/yAe/fuQaVSwcHBASEhIZg8eTJ8fX0bNB6tVguVSgWtVguRSAQLC4sGn//JkyexefNm/P333ygrK0OzZs3QqVMnREREICAgAAKBwORxMMZw/vx5bNq0CWfPnkVxcTGsra3Rtm1bTJ48GQMGDGiwbfbGjRvYtGkTTp48CYVCAalUipYtWyI8PBzDhw9v8O+orgSMMWbKGdTWZ+Kvv/5C7969Df5R29nZGRqaSVlZWSErK8vcYZB/IcYYFAoF8vLyUFFRwQ0XCoWws7ODo6MjrKysGiSOoqIi5Ofno7S0lBsuEAhga2sLuVyOZs2amTwO4FG/rPz8fBQXF+PxvzwbGxs4OjrC1tbWpDstjUaDVatWYf369SguLoZQKIRWq+XGi0QiaLVaDBgwAGvWrIG3t7fJYgEApVKJ/Px8KBQKaDQabrhUKoVcLoe9vb3Jd56HDh3CBx98gLS0NIhEIp04xGIx1Go1/Pz8sGrVKgQFBZksjoSEBMybNw9Xrlzh5lulKi5PT08sXboUY8aMMVkcN2/eRGRkJP73v//prY+q7cXBwQHvvvsuZs6cWa/ttSH6TFAyYSKUTBBzqKioQFpaWq03TbO3t4enp6fJdqAqlQqpqalQKpVPLdesWTN4e3ubrMVEo9EgPT1dJ5mpjqWlJXx8fCCRSHiPQaVSYeLEifjtt99Q29+tSCSCvb09Dh8+jHbt2vEeCwBkZWUhJyen1ji8vb1hY2Njkhi+/fZbLFiwAAKB4KnrRCAQQCgUYsOGDRg3bhzvcRw6dAjh4eHQarU6yV1NFi9ejHnz5vEex5kzZzBy5EiUl5frJBE1mThxItauXVvn3w11wCSE1JlSqURKSkqd7r6qUChw//59k8ShVquRkpJSayIBPGoxSE1NrXUnawitVovU1NRaEwngURKWmpqqc1TKl7lz59YpkQAeJT8KhQIjRoxAZmYm77FkZmbWmkhUxVHXdVdf+/btw4IFCwCg1nXCGINGo8G0adPw559/8hpHYmIiwsPDodFo6pRIAMCSJUuwY8cOXuO4ffs2Ro8ejbKysjolEgCwbds2LF++nNc4jEXJBCFNRHp6ep3/jACgsLAQeXl5vMfx4MEDVFZW1rl8WVmZSVrxsrKyUF5eXufySqUSDx8+5DWGS5cuYfv27fVKljQaDXJzc7F69WpeYykuLkZubm6dyzPGcO/ePV4TPZVKhfnz59e7RYwxhvnz5/May7vvvgutVlvvOhcuXIiysjLe4li+fDlKS0vrnNBU+eKLL0x2QGAISiYIaSTqswN+UklJSZ1aAp6Un59v8DyrU1lZ+dRTmzUpKCio95/p02i1WigUinpPV1xczOtzdTZt2mTQKVyNRoMdO3bw2jJgSOKoVqsNWo81OXToEPLy8uq9A2eM4fbt2/jf//7HSxwXLlzApUuXDNrmiouLsX//fl7iyMrKwi+//FKvg4AqQqEQW7Zs4SUOPlAyQRotxhjWrl2LDh06wMXFBYGBgTh48CAA4PTp07Czs8Px48fRs2dPuLi4IDQ0FDk5OTh27Bi6dOkCT09PTJo0SecoIjY2FsHBwfDy8oKPjw/GjBmDu3fvcuPT0tJgZ2eHn3/+GQMGDICzszO6du2K06dPc2Wq5h0TE4PAwEA4OzsjKCgIV69e1Yn/zJkzGDRoEFxcXNC2bVu8++67OjsHf39/rFq1CtOnT0fz5s0xe/Zsg9eVoUmBUqnkdYdlaBwajQaFhYW8xfFkx8K6YozxlmAVFRUhOjra4FMnZWVl2Lt3Ly+xVFZWoqSkxKBp+Uw4N27caHDHTrFYjO+++46XODZt2mRwHFV9OPiwY8cOg1tbNBoNNm/e3GgeKknJBGm0li1bhp07d2L16tU4c+YMZs6ciYiICMTFxXFlVq5cic8//xyxsbG4f/8+wsPD8c0332Dz5s3Yu3cvTpw4gY0bN3Lly8rKMGvWLJw4cQKHDh2CUCjEhAkT9I5QFi1ahNmzZyMuLg7dunXDa6+9pndkt2jRIixfvhwnT56Es7MzXnvtNe6HffXqVYwcORLDhg1DfHw8tm3bhsTERMyfP1+njq+++grt2rXDqVOn8N577xm8roxpduUzmTCmrqYWx82bNw1qLaoiFouRnJzMSyyGJhIAUF5eztvpheTkZIOSPOBRK8m5c+d4iePs2bMGx6HVavH333/z0pJ28eJFo9ZtQUEBHjx4YHQcfKD7TJBGqbS0FOvXr8ehQ4fQrVs3AICvry8SEhKwZcsWTJo0CcCjHXpAQAAA4I033kBUVBQuXbrEXa//yiuv4K+//sI777wDABgxYoTOfL7++mu0bNkSN27c0Ok9P3XqVK7smjVrcPz4cfzwww+IjIzkyrz//vvo168fAGDDhg1o27YtDh06hFGjRuHLL7/EmDFjMHPmTABA69atsWrVKgwePBhr1qyBpaUlAKB3796YM2eO0evL0D9GALyfXjCUMcvQGOMwZgcOPGol4au1xthkQKPRGH1PDsZYvfqwVMfYdcpXPYwxlJaWGn2VRGFhodHfjSGnFU2BkgnSKN24cQMVFRV45ZVXdIZXVlaiQ4cO3Gd/f3/uvYuLC6ytrXVu/OPs7IykpCTu8927d7F8+XKcP38eeXl53E7n3r17OslE165dufdisRgdO3bEzZs3dWJ5vIxcLkebNm24MsnJybh79y5++uknrgxjDFqtFmlpafDz8wMAdOzYse4r5SmEQqHBO0E+L8s0pi4+72tgTBx8rQ9ra2ujpq+6HwcfjL0EmI91IhAIIJVKjWqtMXad8lkPH3Xw8f2a6vLd+qJkgjRKVTv5vXv3wt3dXWecVCpFSkoKAOgcLVXd5fFxAoFA5yh13Lhx8PT0xFdffQV3d3dotVp069atTucd6/KHXFVGq9Vi0qRJmD59ul4ZLy8v7j1ff45WVlYGH21VtZLwFYehR5983kjLysrK4KN6vr6TVq1a6d18qD40Gg2ee+45XmIxZt1KpVLeEqw2bdrg6tWrBh2Ni0QivPDCC7zE8cILLyAlJcWg70YgEMDX15eX5NfPzw+///67wduItbW13v+juVCfCdIoPf/885BKpbh37x5atWql82revLlBdebl5eHmzZt477330LdvX/j5+dXYU/3xc7NqtRrJycl6f+yPlykoKMDt27e5Mi+++CJu3LihF3urVq1McjtcuVxu0HQWFha83vjN0DiEQiHs7e15i8PBwcHgo3FDl+FJTk5OGDZsmMGnB8RiMV5//XVeYrGysjI4oeBrfQCPTh8a0+HwzTff5CWOKVOmGHU6KyIigpc4qu5zYQiRSIT//Oc/DXI327qgZII0Sra2tpg9ezYWLlyIXbt24e7du7h06RK+++477Nq1y6A6HRwcIJfLsXXrVty5cwenTp3CwoULqy37/fff49ChQ/jnn38wb948KBQKhIWF6ZT59NNPcfLkSVy7dg0zZsyAo6MjQkNDAQDvvPMOzp49i7lz5+Ly5cu4ffs2jhw5otcBky+2trYG3b3RwcGB1zgsLS0NOrKXyWS8nuYQiUSQyWT1ns7GxgZSqZS3OCIiIgy6mkMkEmH06NFwdHTkLRZD6uI7yRszZozBLT9ubm4ICQnhJY4+ffrA19fXoIRTIpFg/PjxvMTRsmVL9OvXz6Btn8/kig+UTJBGa9GiRViwYAFWr16Nl19+GSNHjsTRo0fRokULg+oTCoXYunUrkpOTERAQgIULF9Z4F7moqCisWbMGgYGBiI+Px+7du/X+jKOiorBgwQL07t0bmZmZiI6O5lod/P39ceTIEdy5cweDBg1Cr169sHz5cri5uRkUe20EAgGaN29erz9Ha2trODk58R6Lp6dnvf4cpVKpSdaLm5tbvVqBxGIxPD09eY2hZ8+e6N+/f73Wh1AohFQq5T3xtLe3r3crVH2/y9rY2Njgv//9r0HTLlmyhLdYBAIBli1bZlArybx583hNwv/73/9CKBTW67crFArx2muv4fnnn+ctDmPRszlMhJ7N8WxKS0tD+/btERcXp9PR83GnT5/G0KFDkZ6ezutRGx9KSkpw7969WptObWxs4O3tbbKHOdX1GSFSqRQtWrQwyTMxgLo/I0QikcDHx4fX/iNViouLMXToUFy+fLnWq0xEIhHEYjF+/vln9OnTh/dYGGO4f/9+rf1JBAIBPD09TbJ9M8awYMGCet2rYdGiRXj33Xd5j+Xrr7+usXWyOmFhYVi/fj3vz7T55ZdfMHHiRK6T9tMIhUL07t0be/furXMrGj2bgxBSL82aNUPr1q3h7OxcbYJubW2N5s2bo0WLFiZ9KqSlpSVat25dY+uAVCqFh4cHWrVqZbJEAniUJLRq1Qru7u7V/vFaWFjAzc0NrVu3NkkiATz6Iz969ChGjx4NgUBQ7XqvGubt7Y2YmBiTJBLAoyTBy8sL3t7e1T6xVSQSwdHREa1btzZZoiwQCPDpp59i+fLlsLKygkAg0Ns5V3X4tLW1xbp160ySSADAzJkz8f3333PLWl1H06qrUD788EOTJBLAo0vWDxw4wLXQVbeNCIVCiEQiTJ48GT///DOvp+P48My3TDRWarW6yS3Tv8Gz3jLxuKpr4TUaDfeHaK4/oLKyMqhUKu6KG3N1GisvL4dKpQJjDBKJhLcrN+oqPT0d27Ztw44dO5CTkwPGGKRSKQYMGIBp06ahT58+Jn0U+pMqKytRUVEBxhhEIhGsra1N9gTX6hQXF2PPnj347rvvcOPGDW74iy++iOnTp2PUqFENsq0olUocPHgQGzduRHJyMtfPRSQSYcWKFXj99dcb5Leu0Whw7NgxbNy4EXFxcdwt9oVCIT744AOEh4fD1dW13vXSI8ifYZRMEEKeRqPRQKPRmOTqnmeRn58fMjIy4O7urndPl4bEGMPzzz+PjIwMeHh46CQ5Da1qnRgbR0MkE7S3I4QQMxCJRCY91fSsqWqRaciWmZriMHcMVRpLHHVBfSYIIYQQYhSTt0w8rXmlqqd3s2bNTNoJyxxUKlWTWyZCCDGVx1smGqJZ/lmIpbHEURfUMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCj0O20CSH/CgqFAocOHUJmZia0Wi2cnZ0xZMgQ7kmN/zYqlQoxMTG4c+cOysvLIZPJ0LNnzxofcNfUMcZw7tw5nDt3jnumVEVFBTQaTYPf9vzatWs4deoUF0d5eTkqKysb9XNcKJkgpAnSarVQKBQoKiqCWq2GUCiEhYUFHB0dG/SJnYwxFBUVQaFQcE9itLCwgIODQ7WPwDaFy5cv46uvvsLOnTuhVCq5HUPVTmL06NGYM2cOevTo0SDxlJWVIT8/H5WVldBqtRCLxZDJZLC3t2+QZzFkZWVhw4YN+Oabb5CdnQ2hUAihUAiNRgPGGAICAjB79myMHTu2QR5WqFKpkJeXx20farUa2dnZkMvlDTJ/pVKJnTt34quvvsLly5chEAhQ9fzLvLw8+Pr6YubMmZg6dSocHBxMFodWq8W+ffuwbt06nD59WieO/Px8uLu7Y/r06Xjrrbfg6elpsjgMZfKnhj6NSqXCkSNH8Prrr6O8vNxcYZiElZUVysrKzB0G+RfKyspCbm4uNBpNteOtrKzg4eEBGxsbk8aRl5eH7Oxs7rb5T5JKpXBzc4NMJjNZDJs2bcK0adMgFAq5ndWTxGIx1Go1lixZgkWLFplsh15aWoqHDx/W+F8nEong5ORk0COm6+r8+fMYNGgQCgoKoNVqqy0jFAqh1WoxaNAg7N2712RJn0qlwoMHD1BcXAzGGAYOHIjs7Gy4uLggNjYWAoEAMpkMnp6eJmsZyMvLQ2hoKBITE7nlro5QKISnpyeOHTuG559/nvc4ysvLMX78eBw8eBAikajG365IJEKzZs1w+PDhBkt+64r6TBDSRDDGkJaWhqysrBr/jIBHf1x3795FUVGRyWJ5+PAhHjx4UGMiATw6IkxLS0NeXp5JYtiyZQsiIiKg1WprTCQAcOMWL16MpUuXmiSWwsJC3L1796kHTRqNBllZWUhPTzdJDH///Tf69u0LhUJR404TADcuNjYWQ4cORWVlJe+xVFZW4vbt2ygqKkJNx7OMMSgUCty+ffup35+hSkpK0K9fP5w7dw4Aal0nDx8+RM+ePZGamsprHGq1Gq+++ip+/fVXAHjqb1ej0aC4uBgDBgzA+fPneY3DWJRMENJEZGRkoLCwsE5lGWNIT083SYtgbm4ucnNz61y+6uiUT//88w+mTp1a7+mioqJw8uRJXmMpLy9Henp6jTvNJykUCmRkZPAag0ajwfDhw7k+AHWdJi4uDsuWLeM1Fq1Wi5SUlKcmmo9TKpVISUmp8/qrq7lz5+Lq1av1Wh+FhYUYM2YMr3F88cUXOHr06FOTmcdptVqoVCqEhoaaJNEzFCUThPx/EydOhEAgwPTp0/XGvfXWWxAIBJg4caJR89i2bRsEAoHea9OmTUbVW3XeuT60Wi1ycnKMmu+TGGPIzs6u93RZWVm8xvHNN98YNJ1YLMaXX37JayzZ2dn13hHm5ubyejR+9OhRpKam1nnHWUWr1WL9+vVQKpW8xVJQUFDv+srLy3ltScvPz8f27dvrvT7UajXOnz/PtWYYS61WY+3atfXePqpasfbv389LHHygZIKQx3h5eSE6OlrniL2iogK7d++Gt7e3wfUyxridg52dHTIyMnReEyZMMCru/Px8g47cCgsLed1pPd7Rsj7Kysp462NUWlqKzZs313tHATz6c//1119x//59XmJRqVQG7QQZY8jPz+clBgBYv369wf0OFAoFfv75Z95iMfS0Fp+nw7Zt21bnlpEnicVig5PVJ/3222/IzMw0aFqRSIR169bxEgcfKJkg5DGdOnWCt7e3Tsa/f/9+eHl5oWPHjtwwpVKJOXPmwMXFBZaWlujZs6fO0crJkychEAjw+++/o0uXLpBKpTh9+jQAQCAQwM3NTedl7BUWCoXCoOmqzkvzxZi6+Irjzz//RElJicHTM8bwyy+/8BKLQqEwuHmer/VRWlqKY8eOGZRcAY86H+7du5eXWMrLy1FRUWHQtCUlJQYnAE/as2ePwd+LWq3Gnj17eIlj3759Bid5Go0G8fHxBrUEmgIlE4Q8YdKkSdi6dSv3ecuWLZg8ebJOmffeew/79u3D9u3bceHCBbRu3RohISF6R5PvvfceVq5cievXr5v0+n1j/mT5+oNuLHEY++cqFot5O/3TGNZHXl6eUf0NtFotb304jG0F46sVzdjTauXl5bz0N8rOzjY4yavC96lKQ1EyQcgTwsLCEBcXh9TUVKSlpeF///sf/vOf/3DjS0tL8e233+Kzzz7D4MGD0a5dO3z//fewsrLC5s2bdepaunQpBg4ciFatWsHR0RHAo1MLzZo1417/1psmmQofl3bydXloQ9w3oiE0leXgU2NZJ40lDrppFSFPcHJywtChQ7F9+3YwxjB06FA4OTlx4+/cuQOVSqVznbdEIkHXrl1x/fp1nbq6dOmiV7+trS0uXLjAfRYKjc/pJRKJwZ3kJBKJ0fN/vC5Dm7H5isPFxcWo6dVqtdF1VDHmpkt8rQ9HR0edGyDVl1AohIeHBy+xGLtMfN3Eys3NDWlpaQZPb21tDUtLS6PjcHV15e5zYihnZ2ej4+ADtUwQUo3Jkydj27Zt2L59u94pjqo/5SePCBhjesOquzGUUChE69atuVfLli2NjtfQO/MJBALY29sbPX9j4zB22sf169cPdnZ2Bk8vFAoxYsQIXmIx5q6WfK0PGxsbDB482OAdsVarxdixY3mJxdLS0uD+Qc2aNeMtwXr99dcN/l7EYjFee+01XuIYM2aMwYmESCRCr169KJkgpDEbNGgQKisrUVlZiZCQEJ1xrVu3hoWFBeLi4rhhKpUK58+fR9u2bRs6VACAXC436M9RJpPxestiQ+uztrbm7Tbf1tbWePPNNw3q2CYWizFy5Ehej8QNSWwEAgHkcjkvMQDArFmzDN5pyeVyjBo1irdYqk731dfjrYPGCg8Ph1QqNWhatVqNmTNn8hLHkCFDDL41tkajwZw5c3iJgw+UTBBSDZFIhOvXr+P69et6OyUbGxvMmDED7777LmJiYnDt2jVERESgrKwMU6ZMMUu8YrG43n+2QqGQt+b8KgKBoN63g666uoVPM2bMMCi5UqvVePvtt3mNxdXVtd6nspydnXm9hXRISAhat25d7zoFAgHmzJnD6wOm7O3t670jt7a2hq2tLa8xTJ48ud7fi1gsRvfu3dGpUyde4hCJRJg7d269t1WRSARPT0/eWtD4QMkEITWws7Or8ajyk08+wejRoxEWFoZOnTrh9u3b+P333036IKDauLu71/mUhVAohI+PDy/nfZ/k6OhY5yRFIBDA09OT9+c/tG7dGtu2bav3dCtXrkTPnj15jcXS0hLe3t513mE4ODjwnlwJhUL8+uuvsLGxqXNCIRQKMWDAAHzwwQe8x+Lr61vnBMXS0hItWrTgvaPhZ599hk6dOtV5fYhEIjg6OuKnn37iNY63334bI0aMqHNiIxKJYGFhgd9++43X/k7Gogd9mQg96IuYS05ODnJycmps1raxsYG7uzusra1NGkdBQQGysrJqvOWvpaUl3N3deT3ifNLOnTsxadIkADVfVljVAW7VqlWYP3++yXrHl5WVISMjA6WlpTXG4ezsbNJz4JcvX0ZwcDBycnJqvH1z1YOmRowYgR9//NFk24larcbDhw9RWFhY7YO+hEIh7O3t4e7ubrIHfSkUCowYMQJ//fVXjQ/6qtoeWrRogdjYWLRq1Yr3OJRKJSZNmoTdu3c/9UFfVeskJiYGL7/8Mu9xGIWZUWVlJTt48CCrrKw0Zxgm0RSXiTw7tFotKygoYKmpqezOnTvs7t277MGDB6y8vLzBYykqKmLp6elcHPfu3WOlpaUNNv/r16+zWbNmMWtrawaACQQCJhQKGQBmYWHBJk6cyM6dO9dg8ZSXl7MHDx6wu3fvsjt37rC0tDRWUFDAtFptg8w/NzeXffrpp6x58+YMgN4rKCiI7du3j2k0mgaJR6VSsaysLObq6soAMFdXV5adnc3UanWDzL+yspLt2rWLBQQEcOtAJBJx71u3bs2+/PJLVlhYaNI4tFotO3ToEAsJCWECgUDve3Fzc2PLli1jWVlZJo3DUI2iZWLIkCGNqrmGDyqVqsktEyHPspKSEsTExCArKwtarRZOTk4IDg42uEPgs06j0eDEiRMYM2YMFAoF7O3tkZiYCD8/P7PE07x5czx48ACenp683c68vi5fvozz58+jqKgINjY28PPzQ69evRr8Xg537tzB6dOnERkZicLCQjg6OiIzM5PXztJ8o2TCRCiZIIQ8CxrDTrwxxdGYPEvrhDpgEkIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQolEwQQgghxCgmv51WcXFxjeOq7pVfUlLSqO/sZQi1Wt3klokQ0vRU3beQMfbU/+t/SxyNCV/rxJTPv6lCLROEEEIIMQolE4QQk6s6siotLYUZ7+BPqvH40S/F0Xhotdoan+zaGFEyQUgTpdVqUVxcjIKCAigUCpSXlzfo/Blj+Ouvv/Cf//wHjo6O8PT0hLu7O9zc3DBr1ixcunSpQeMBgNLSUigUCigUCpSUlJhtx1VeXg6FQoGCggIUFxc3eBwPHz7EihUr0Lp1a2RkZAAAMjIy0K9fP+zZswdKpbJB4sjPz8f69evRoUMHnThefvllbNq0qcFPd6jVahQVFaGgoACFhYWorKxs0PlXVlZi//79CAkJgYODAzIzMwEAmZmZWLp0KdLT0xs0nvow+YO+nva0NSsrK+zevRuvv/56g//RmZqVlRWysrLMHQb5F6qsrEReXh4UCgU0Go3OOEtLS8jlcjg4OJj0SYg3btzAf/7zH/zzzz8QiUR6cYjFYqjVagQGBmL79u1wdXU1WSwajQYKhQL5+fl6O0mJRAIHBwfI5XKT93FijKGgoAD5+fmoqKjQGScSibg4LCwsTBaDSqXCe++9h61btwKA3pGvUCiEVquFg4MD1q9fj2HDhpkkDsYYVq1ahc8++wwqlYobVkUgEIAxBisrKyxduhTTpk0zSRxVysrKkJ+fj8LCQr3ErlmzZpDL5bCzszNpDMeOHcO0adOQl5dX7W9GJBJBq9Xi9ddfx9q1a2FpaVnnuhuizwQlEyZCyQQxh6KiIty/f7/W5lFra2v4+PhAJBLxHsPFixcxdOhQlJeX6/0hPkkkEsHNzQ2xsbFo3rw577FUVlYiLS2t1iNtsVgMHx8fWFlZ8R4D8OiINy0trdb/OaFQCC8vL5P8+VdWVmLcuHH4888/a20Jqfrf/uqrrxAeHs5rHIwxvP3229i2bVudp5k/fz4++ugjXuOokpuby7UAPI29vT08PT1NkoTv3bsXERERYIzV+t0IhUIEBATgwIEDdd5eqQMmIXWUlpYGOzs7XL582dyhmE1JSQnu3btXp/OsZWVlSE1N5f2cbEZGBkaOHFmnRAJ41GqQmZnJTcMntVqN1NTUOjXZ16dsfWm1WqSmptZp+bRaLdLT01FaWsp7HHPnzsWJEyfqdEqlaqc2Z84cnDhxgtc41qxZU69EAgA+//xz7Nixg9c4ACAvL69OiQQAKBQKPHz4kPcYEhMTMXXqVGi12jp9N1qtFomJiZgxYwbvsRiDkglCmgDGGB48eFCvc+/l5eXIy8vjNY6NGzeisLCwTolEFY1Gg5s3b2L//v28xpKRkVGvc94ajQYPHjzgNQbg0ZHvk6c1noYxhvv37/Maw927d7Fjx456J48CgQBLly7lLY7i4mKsWrXKoGmXLFnCnRLhg0qlqnMiUaWqjwufPv7443pPo9VqsX//fly9epXXWIxByQR55jR0p6iGYsxyFRUVGfRHm5+fz1vnP6VSiS1bttQrkagiFAqxYcMGXuIA/q8jXX2VlZXVa8dfm6p+EvWlUqkMir8mW7ZsMeiUllarRVJSEm+dZX/66SeUlZUZNG1OTg6OHj3KSxyA4dt+fn4+bzHcunULp06dMug3IxKJsGnTJt5iMRYlE00AYwxr165Fhw4d4OLigsDAQBw8eBAAcPr0adjZ2eH48ePo2bMnXFxcEBoaipycHBw7dgxdunSBp6cnJk2apPMjj42NRXBwMLy8vODj44MxY8bg7t273Piq0wo///wzBgwYAGdnZ3Tt2hWnT5/mylTNOyYmBoGBgXB2dkZQUJBeNn3mzBkMGjQILi4uaNu2Ld59912dZl5/f3+sWrUK06dPR/PmzTF79uwa10VqaiqGDh0KV1dXBAYG4syZM9y4Xbt2wcvLC0ePHkWnTp3g6uqKsLAwlJaWYteuXfD394e3tzfmz5+v8+Oumv/UqVPh7u6OF154AYcPH0Zubi5ee+01uLu7IyAgABcuXDDZctXG0D84lUrF25HW4cOHoVAoDJpWq9Xi0qVLvJ2mUigUBidJfO4sDE3y+IxDrVZj27ZtBu2wgEf9Sep7WqImmzZtMrjPgUgkwubNm3mJw9AkD3jUusLXAc2OHTsM7rek0Wiwa9cug5MzvlEy0QQsW7YMO3fuxOrVq3HmzBnMnDkTERERiIuL48qsXLkSn3/+OWJjY3H//n2Eh4fjm2++webNm7F3716cOHECGzdu5MqXlZVh1qxZOHHiBA4dOgShUIgJEyboNZMuWrQIs2fPRlxcHLp164bXXntNr+l80aJFWL58OU6ePAlnZ2e89tpr3B/s1atXMXLkSAwbNgzx8fHYtm0bEhMTMX/+fJ06vvrqK7Rr1w6nTp3Ce++9V+O6WLp0KRdP69atMWXKFO5Oq1XLtWHDBmzduhX79+/H6dOnMWHCBMTGxuLnn3/Gxo0bsW3bNi4Zq/L1118jICAAp0+fRnBwMKZOnYqpU6di3Lhx+Ouvv9CyZUtMmzaN24HxvVy1MeZomq8j8X/++cfoKyJu3brFSyzG9L/gs+9GY/he8vLyjGrlUKvVuHnzJi+x3Lp1y+AkT6PR4Pr167zEoVKpdP4X6ovP34yhSV5VHFWX1Job3e/5GVdaWor169fj0KFD6NatGwDA19cXCQkJ2LJlCyZNmgTg0Q49ICAAAPDGG28gKioKly5dgq+vLwDglVdewV9//YV33nkHADBixAid+Xz99ddo2bIlbty4gXbt2nHDp06dypVds2YNjh8/jh9++AGRkZFcmffffx/9+vUDAGzYsAFt27bFoUOHMGrUKHz55ZcYM2YMZs6cCQBo3bo1Vq1ahcGDB2PNmjXc5U+9e/fGnDlzal0fc+bMwaBBgwAAH3zwAbp27Yq7d+/iueeeA/DoT2TNmjVo2bIlt9zR0dG4ffs2mjVrhueffx69evXC6dOnMXr0aK7e4OBgTJ48mVuezZs3o1OnThg5ciQAIDIyEgMGDEB2djZcXV15X67aGNORkq9OmGVlZUb3dOfrKKsxrI/GEgcf67SkpMToOhhjRh/R85XoGbtu+fpu+FivjaVlgpKJZ9yNGzdQUVGBV155RWd4ZWUlOnTowH329/fn3ru4uMDa2ppLJADA2dkZSUlJ3Oe7d+9i+fLlOH/+PPLy8rgfz71793SSia5du3LvxWIxOnbsqHcU83gZuVyONm3acGWSk5Nx9+5d/PTTT1wZxhi0Wi3S0tLg5+cHAOjYsSM3PjIyEnv27OE+P56Zv/DCC9z7qnsX5OTkcMmEtbU1l0hULbe3tzeaNWums35ycnJ0luHJ9ffkvKqG5eTkwNXV1aDlMoZIJDL4SEso5KeB0s7Ozug/Wb6u5Tdmmfi8XLYxxMHHOrW3tze6DoFAACsrK6MSAr4ucTR23fL13djb23P31DCUqe9/UVeUTDzjqv689+7dC3d3d51xUqkUKSkpAKDT/CwQCCCRSHTKCgQCnR3BuHHj4Onpia+++gru7u7QarXo1q1bnc7/1uXotKqMVqvFpEmTMH36dL0yXl5e3Htra2vu/Ycfflhj/4LHl+vxeVQ3vqpMbesC0F9/tc3LkOUyho2NDQoLCw2elg+dO3c2qslWIBDgpZde4iUWY9bH44klH3E8mZjWZ1o+yOVyNG/e3OArREQiEbp06cJLLF26dEF8fLxB24lYLOZaX40lkUgglUoNuhRYKBTy9rvt3LkzDh8+bHAy4eTkBE9PT15iMRb1mXjGPf/885BKpbh37x5atWql8zL0JkB5eXm4efMm3nvvPfTt2xd+fn41dqw7d+4c916tViM5OZlrBaiuTEFBAW7fvs2VefHFF3Hjxg292Fu1alXjnQCdnZ11yjVGhiyXMeRyuUHTSaVS3nZaffr0gY+Pj0GnOkQiEQYMGAAfHx9eYrG3tzfo6FEgEMDBwYGXGIBHiYlUKjVoWkO/0ycJBAJMmzbN4FNQVYkxH6ZNm2ZwwqlWqzF16lRe4gAMX78ymYy3lomwsDCDW6+EQiHefPPNRvN0akomnnG2traYPXs2Fi5ciF27duHu3bu4dOkSvvvuO+zatcugOqtu67t161bcuXMHp06dwsKFC6st+/333+PQoUP4559/MG/ePCgUCoSFhemU+fTTT3Hy5Elcu3YNM2bMgKOjI0JDQwEA77zzDs6ePYu5c+fi8uXLuH37No4cOaLXUfFZ09DLZWNjU6/b61ZxdHTkLQahUGjwbY81Gg2vOwqhUGhQUmBnZ6fXUmUsQ3ZaVlZWvB39AsB//vMfg3Y6IpEIgwYN0mlNM8aQIUPg7Oxc78RGKBTCz8+P6/fFB0MTTr6SPODRgdGoUaMMTk4mTpzIWyzGomSiCVi0aBEWLFiA1atX4+WXX8bIkSNx9OhRtGjRwqD6hEIhtm7diuTkZAQEBGDhwoVYvnx5tWWjoqKwZs0aBAYGIj4+Hrt379bbQUVFRWHBggXo3bs3MjMzER0dzR2d+/v748iRI7hz5w4GDRqEXr16Yfny5XBzczMo9sbCHMvl7e1drx2Gvb09r3+MADBp0iS88MIL9fpzFAqFGDJkCAYOHMhrLK6urvXaIUulUnh4ePAaA/AoYZPJZHUuLxaLedt5Px7DkiVL6jWNUCiElZUVli1bxlscYrEYa9eurdc0AoEAAoEAq1ev5vVW1iKRCF5eXvWq093dnfdbrv/3v/+FnZ1dvROK999/3yTbq6Ho2Rwm0tSfzZGWlob27dsjLi5Op6Pn406fPo2hQ4ciPT2dlw5cpHZKpRJpaWm19pqXy+Vwd3c3yXMGsrKyMGTIENy9e7fWJm2hUIiePXvip59+4vVIvIpWq8W9e/dqvZeGlZUVfHx8TNZkzBhDRkZGrfeOkEql8PHxMcmpMMYYli1bhs8//7zWsiKRCJaWlti/fz+6d+/Oeyxbt27lrvh62i5IKBRCKBRiy5Ytep3M+VJcXIz79+8/dVsVCARwc3PjtSXvcRcuXMCIESNQUlJSp9NA06dPx6efflrn3y89m4MQUi9SqRRt2rRB8+bN9XbOQqEQcrkcrVu3hoeHh8meGurq6oo//vgDr7/+OiQSid58qj7b2Njg7bffxv79+02SSACPltnHxwe+vr6QyWQ6sQgEAtja2sLHxwetWrUy6blngUAADw8PtG7dGnK5XO88uY2NDby8vNC6dWuTPTVUIBDgo48+wrfffst12nvyaLjqc48ePXDixAmTJBLAoxasn376ies79eS6r/rcoUMHHDp0yGSJBPBoR/vcc8/B3d1dr3+LRCKBi4sLnnvuOZMlEgDQqVMnnDhxAkFBQRAIBDV+L25ublizZk29EomGYvKWiacdEajVavz111/o3bt3o+lEwhe1Wt3klulx1DLxbNBoNFCr1dxVKw39B5SXl4ddu3bhl19+QW5uLoRCITw8PDBu3DiMHj2at86fdaXVarlLaEUikUmemloXjDGoVCowxiAWixs8Dq1Wi+PHj2Pbtm24desWysvLYW9vj169emHy5Mlo06ZNg8TBGMOZM2ewadMmXLlyBcXFxZDJZOjUqROmTJnC26XT9aFSqaDVaiEUCiEWixv8N5OSkoKtW7fixIkTKCgogKWlJVq2bImJEyciODjYoP1Kk3gEOSUThBBCiPnQaQ5CCCGENHqUTBBCCCHEKCZvh39a80rV3RSbNWvG+7Xd5qZSqZrcMhFCCCHVoZYJQgghhBiFkglCCCGEGMWkpzkYY0+9mkOlUqGsrAxFRUVN7pRA1WkOW1vbRnc9MCGEEMInkyYTVdcM/5tlZ2fD2dnZ3GEQQgghJmPSZMLW1vapjwEuKiqCl5cX7t2712ieyc6XqmUz1d3sCCGEkMbCpMmEQCCoU5JgZ2fX5JKJKnSKgxBCSFNHHTAJIYQQYhRKJgghhBBiFLMmE1KpFIsXL9Z7UltT0JSXjRBCCHmcyR/0RQghhJCmjU5zEEIIIcQolEwQQgghxCiUTBBCCCHEKJRMEEIIIcQo9UomVq5ciZdffhm2trZwcXHBK6+8gps3b+qUmThxIgQCgc4rICBAp4xSqcTs2bPh5OQEGxsbDB8+HPfv39cpU1BQgLCwMMhkMshkMoSFhUGhUOiUSU9Px7Bhw2BjYwMnJyfMmTMHlZWV9Vkkk/nmm2/g6+sLS0tLdO7cGadPnzZ3SIQQQohJ1CuZOHXqFGbOnInExETExsZCrVYjODgYpaWlOuUGDRqEjIwM7nXkyBGd8ZGRkThw4ACio6MRFxeHkpIShIaGQqPRcGXGjx+P5ORkxMTEICYmBsnJyQgLC+PGazQaDB06FKWlpYiLi0N0dDT27duHefPmGbIeeLVnzx5ERkbiww8/xMWLF9GrVy8MHjwY6enp5g6NEEII4R8zQnZ2NgPATp06xQ0LDw9nI0aMqHEahULBJBIJi46O5oY9ePCACYVCFhMTwxhj7Nq1awwAS0xM5MokJCQwAOzGjRuMMcaOHDnChEIhe/DgAVdm9+7dTCqVssLCQmMWy2hdu3Zl06dP1xn2/PPPs/fff99MERFCCCGmY1SfiaqHeMnlcp3hJ0+ehIuLC5577jlEREQgOzubG5eUlASVSoXg4GBumIeHB/z9/REfHw8ASEhIgEwmQ7du3bgyAQEBkMlkOmX8/f3h4eHBlQkJCYFSqURSUpIxi2WUyspKJCUl6SwfAAQHB3OxE0IIIU2JwckEYwxz585Fz5494e/vzw0fPHgwdu3ahT///BNffPEFzp07h379+kGpVAIAMjMzYWFhAQcHB536XF1dkZmZyZVxcXHRm6eLi4tOGVdXV53xDg4OsLCw4MqYQ25uLjQajV5sjy8fIYQQ0pQY/NTQWbNm4fLly4iLi9MZPm7cOO69v78/unTpAh8fHxw+fBijRo2qsT7GmM4TNqt72qYhZczlyRgaS1yEEEII3wxqmZg9ezZ+/fVXnDhxAs2bN39qWXd3d/j4+ODWrVsAADc3N1RWVqKgoECnXHZ2Nnc07+bmhqysLL26cnJydMo8eaRfUFAAlUql1yrQkJycnCASifRie3z5CCGEkKakXskEYwyzZs3C/v378eeff8LX17fWafLy8nDv3j24u7sDADp37gyJRILY2FiuTEZGBq5cuYLAwEAAQPfu3VFYWIizZ89yZc6cOYPCwkKdMleuXEFGRgZX5tixY5BKpejcuXN9FotXFhYW6Ny5s87yAUBsbCwXOyGEENKk1Ke35owZM5hMJmMnT55kGRkZ3KusrIwxxlhxcTGbN28ei4+PZykpKezEiROse/fuzNPTkxUVFXH1TJ8+nTVv3pwdP36cXbhwgfXr14+9+OKLTK1Wc2UGDRrEOnTowBISElhCQgJr3749Cw0N5car1Wrm7+/P+vfvzy5cuMCOHz/OmjdvzmbNmmV4d1SeREdHM4lEwjZv3syuXbvGIiMjmY2NDUtNTTV3aIQQQgjv6pVMAKj2tXXrVsYYY2VlZSw4OJg5OzsziUTCvL29WXh4OEtPT9epp7y8nM2aNYvJ5XJmZWXFQkND9crk5eWxCRMmMFtbW2Zra8smTJjACgoKdMqkpaWxoUOHMisrKyaXy9msWbNYRUVF/deCCXz99dfMx8eHWVhYsE6dOulcPksIIYQ0JfQIckIIIYQYhZ7NQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo1AyQQghhBCjUDJBCCGEEKNQMkEIIYQQo/w/GXao/EUJ7EoAAAAASUVORK5CYII=\n",
+      "text/plain": [
+       "<Figure size 622.222x400 with 4 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "subplots = upset(overlap, sum_over='counts')\n",
+    "subplots['intersections'].set_title('#proteins annotated by each source');"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "eea1454f-71bc-4fcf-8d46-737610063c73",
+   "metadata": {},
+   "source": [
+    "This plot demonstrates the sensitivity of sequence profiles; there aren't many annotations that HMMER doesn't find :)\n",
+    "\n",
+    "a sanity check:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "id": "82814d7f-d401-49fd-aedf-9b1f6702f150",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "counts    41943\n",
+       "dtype: int64"
+      ]
+     },
+     "execution_count": 18,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "overlap.sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "1c5f1532-90b8-4552-92f5-9230c3c5b57e",
+   "metadata": {},
+   "source": [
+    "this makes sense. Now let's have a look at the IDs that overlap:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "a412b367-b3b7-46ad-9f22-77dd3509521f",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "16346"
+      ]
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "sequence = np.intersect1d(emapper['protein_id'], hmmer['protein_id'])\n",
+    "keep = np.intersect1d(sequence, morf['protein_id'])\n",
+    "\n",
+    "len(keep)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "50341c58-e419-4762-baa4-0d895576b0eb",
+   "metadata": {},
+   "source": [
+    "We will compare the level of detail and the agreement between the three modalities. Let's start by subsetting the tables before merging:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "id": "85664620-0bb3-410b-bc7c-e75ad2a90c71",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "morf = morf.set_index(\"protein_id\").loc[keep].copy()\n",
+    "emapper = emapper.set_index(\"protein_id\").loc[keep].copy()\n",
+    "hmmer = hmmer.set_index(\"protein_id\").loc[keep].copy()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "add4fa47-8fbd-4a95-b522-1cf6bb0a0fd6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "orthogroups = emapper[['eggNOG_OGs']].join(hmmer[['eggNOG_OGs']],  lsuffix='_emapper', rsuffix='_hmmer').join(morf[['eggNOG_OGs']])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "id": "72071b54-9db9-4a50-a4d8-4828453e6115",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "orthogroups.columns = ['emapper', 'hmmer', 'morf']"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "20c96b85-54f7-453f-a286-ff95a3385c10",
+   "metadata": {},
+   "source": [
+    "## EggNOG most specific OrthoGroup level\n",
+    "\n",
+    "this is the ideal scenario: for how many cases do the annotation pipelines put a gene in the same group of orthologous genes? Extract the EggNOG OG information and compare. We will always examine both ways (source 1 included in source 2 or vice versa) and count both cases as positives."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "id": "859149f7-05d4-4241-99b6-1b8cc20eb558",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def keep_last(row):\n",
+    "    \"\"\"\n",
+    "    A function to isolate the root EggNOG orthogroup.\n",
+    "    \n",
+    "    Expects a comma-separated string where the root orthogroup\n",
+    "    contains the word 'root'.\n",
+    "    \"\"\"\n",
+    "    x = np.array(row.split(','))\n",
+    "    return x[-1]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "id": "45f4676c-6654-40e7-bee3-1cf4f61d36ec",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for source in ['emapper', 'hmmer', 'morf']:\n",
+    "    orthogroups['most_specific_' + source] = orthogroups[source].apply(keep_last)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b5138fdc-d0f4-45f0-91ff-e6ac9634f084",
+   "metadata": {},
+   "source": [
+    "Compare the root orthogroup lists of each gene between tables. Hitting at least one is considered a success."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "id": "66793098-a668-4e0a-8999-9e33a95a7e86",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def contains_OG(row, source1='morf', source2='emapper', base='most_specific_'):\n",
+    "    if row[base + source1] is None or row[base + source2] is None:\n",
+    "        return None\n",
+    "        \n",
+    "    s1_contains_s2 = row[base + source1] in row[source2]\n",
+    "    s2_contains_s1 = row[base + source2] in row[source1]    \n",
+    "    return s1_contains_s2 | s2_contains_s1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "id": "6c7ecd7f-3531-4870-b078-62840bff6b9f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for s1, s2 in [\n",
+    "    ('morf', 'hmmer'),\n",
+    "    ('morf', 'emapper'),\n",
+    "    ('hmmer', 'emapper')\n",
+    "]:\n",
+    "    orthogroups['ms_' + s1 + '_' + s2] = orthogroups.apply(contains_OG, axis=1, args=(s1, s2))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "286a5e92-d267-4100-890b-ad6b4ea2a11c",
+   "metadata": {},
+   "source": [
+    "## EggNOG eukaryote level OG\n",
+    "\n",
+    "since for HMMER we used the eukaryote level OGs, we would expect the significant overlap to happen there:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 27,
+   "id": "3adc0728-ee33-46b7-8f05-a6d2ece5777f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def keep_euk(row):\n",
+    "    \"\"\"\n",
+    "    A function to isolate the root EggNOG orthogroup.\n",
+    "    \n",
+    "    Expects a comma-separated string where the root orthogroup\n",
+    "    contains the word 'root'.\n",
+    "    \"\"\"\n",
+    "    x = np.array(row.split(','))\n",
+    "    for og in x:\n",
+    "        if \"Eukaryota\" in og:\n",
+    "            return og\n",
+    "    else:\n",
+    "        return None"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 28,
+   "id": "7a2f5c9a-fe22-4d4c-ab9f-b69d157c0f27",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for source in ['emapper', 'hmmer', 'morf']:\n",
+    "    orthogroups['euk_' + source] = orthogroups[source].apply(keep_euk)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4df3e0d5-adc5-4514-b8bc-24de39a01f84",
+   "metadata": {},
+   "source": [
+    "See if the eukaryote orthogroup is shared between modalities."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 29,
+   "id": "4382f954-010b-486d-8d28-89cb5bae400b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for s1, s2 in [\n",
+    "    ('morf', 'hmmer'),\n",
+    "    ('morf', 'emapper'),\n",
+    "    ('hmmer', 'emapper')\n",
+    "]:\n",
+    "    orthogroups['euk_' + s1 + '_' + s2] = orthogroups.apply(contains_OG, axis=1, args=(s1, s2, 'euk_'))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d631a6e9-e7e2-4433-9c9e-707aecb6da86",
+   "metadata": {},
+   "source": [
+    "## EggNOG root OrthoGroup level\n",
+    "\n",
+    "this is the most pertinent level: for how many cases do the two annotation pipelines put a gene in the same group of orthologous genes? Extract the EggNOG OG information and compare. To facilitate the comparison we will only look at the root level, but we could extend this as much as we want (e.g. pick the most specific orthogroup for structure and ask if it is found in the sequence annotation).\n",
+    "\n",
+    "Isolate the root orthogroup for each peptide. If multiple root orthogroups are present, keep all of them."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 30,
+   "id": "5d672a2f-adfa-46da-8548-0657836576a3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def keep_root(row):\n",
+    "    \"\"\"\n",
+    "    A function to isolate the root EggNOG orthogroup.\n",
+    "    \n",
+    "    Expects a comma-separated string where the root orthogroup\n",
+    "    contains the word 'root'.\n",
+    "    \"\"\"\n",
+    "    x = np.array(row.split(','))\n",
+    "    keep = np.zeros(len(x), dtype=bool)\n",
+    "    for i, og in enumerate(x):\n",
+    "        keep[i] = 'root' in og\n",
+    "#     print(x, keep)\n",
+    "    return x[keep]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "id": "5a683094-4840-4ede-b1a6-ba21a0f49bde",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for source in ['emapper', 'hmmer', 'morf']:\n",
+    "    orthogroups['root_' + source] = orthogroups[source].apply(keep_root)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c4248331-d51b-4209-a0e1-57bf02ad53ea",
+   "metadata": {},
+   "source": [
+    "Compare the root orthogroup lists of each gene between tables. Hitting at least one is considered a success."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "id": "f31398bf-eeda-4c49-9f35-e11acbe739d9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def is_contained_in(row, x='eggNOG_OGs_struct', y='eggNOG_OGs_seq'):\n",
+    "    overlap = np.intersect1d(row[x], row[y])\n",
+    "    return len(overlap) > 0"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "id": "588ea19c-6661-4a82-bcda-08253f7c583d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "for s1, s2 in [\n",
+    "    ('morf', 'hmmer'),\n",
+    "    ('morf', 'emapper'),\n",
+    "    ('hmmer', 'emapper')\n",
+    "]:\n",
+    "    \n",
+    "    orthogroups['root_' + s1 + '_' + s2] = orthogroups.apply(is_contained_in, axis=1, args=('root_' + s1, 'root_' + s2))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a9183c22-29ff-4956-96dc-16daaae97e6d",
+   "metadata": {},
+   "source": [
+    "# Overlap agreement\n",
+    "\n",
+    "Here we will just print the results:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 34,
+   "id": "6eb5faba-729c-4745-b9a7-3c2586504e42",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "morf and hmmer:\n",
+      "\t- most specific OG: 7959 / 16346 (48.69%)\n",
+      "\t- eukaryotic OG: 13038 / 15889 (82.06%)\n",
+      "\t- root OG: 14251 / 16346 (87.18%)\n",
+      "morf and emapper:\n",
+      "\t- most specific OG: 9280 / 16346 (56.77%)\n",
+      "\t- eukaryotic OG: 14030 / 15745 (89.11%)\n",
+      "\t- root OG: 14827 / 16346 (90.71%)\n",
+      "hmmer and emapper:\n",
+      "\t- most specific OG: 10909 / 16346 (66.74%)\n",
+      "\t- eukaryotic OG: 13828 / 16032 (86.25%)\n",
+      "\t- root OG: 14899 / 16346 (91.15%)\n"
+     ]
+    }
+   ],
+   "source": [
+    "for s1, s2 in [\n",
+    "    ('morf', 'hmmer'),\n",
+    "    ('morf', 'emapper'),\n",
+    "    ('hmmer', 'emapper')\n",
+    "]:\n",
+    "    specific_overlap = orthogroups['ms_' + s1 + '_' + s2].sum()\n",
+    "    euk_overlap = orthogroups['euk_' + s1 + '_' + s2].sum()\n",
+    "    root_overlap = np.sum(orthogroups['root_' + s1 + '_' + s2]).sum()\n",
+    "    print(f'{s1} and {s2}:')\n",
+    "    total = len(keep)\n",
+    "    print(f'\\t- most specific OG: {specific_overlap} / {total} ({specific_overlap / total * 100:.2f}%)')\n",
+    "    total = np.sum(~(orthogroups['euk_' + s1].isnull() | orthogroups['euk_' + s2].isnull()))\n",
+    "    print(f'\\t- eukaryotic OG: {euk_overlap} / {total} ({euk_overlap / total * 100:.2f}%)')\n",
+    "    total = len(keep)\n",
+    "    print(f'\\t- root OG: {root_overlap} / {total} ({root_overlap / total * 100:.2f}%)')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7db8fabf-58d7-4be1-86c8-eed0b20ec250",
+   "metadata": {},
+   "source": [
+    "Where do the orthogroups come from? Do the methods differ in the level of detail they provide?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 35,
+   "id": "62496fa8-166a-460c-9354-c49bcfd37fa0",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Metazoa           6658\n",
+       "Bilateria         1613\n",
+       "Eukaryota         1140\n",
+       "Actinopterygii     913\n",
+       "Chordata           768\n",
+       "Arthropoda         519\n",
+       "Vertebrata         464\n",
+       "Opisthokonta       444\n",
+       "Poales             355\n",
+       "Lepidoptera        210\n",
+       "Name: most_specific_hmmer, dtype: int64"
+      ]
+     },
+     "execution_count": 35,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "orthogroups['most_specific_hmmer'].str.split('|').str[-1].value_counts()[:10]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 36,
+   "id": "539bd579-25c5-46f6-b034-7141ad8b76f8",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Metazoa           7692\n",
+       "Bilateria         1340\n",
+       "Actinopterygii    1146\n",
+       "Eukaryota          970\n",
+       "Chordata           705\n",
+       "Vertebrata         627\n",
+       "Opisthokonta       398\n",
+       "Rodentia           273\n",
+       "Mammalia           251\n",
+       "Arthropoda         233\n",
+       "Name: most_specific_emapper, dtype: int64"
+      ]
+     },
+     "execution_count": 36,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "orthogroups['most_specific_emapper'].str.split('|').str[-1].value_counts()[:10]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 37,
+   "id": "1e004899-37ae-4005-a59d-e64bc867a504",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Actinopterygii     3216\n",
+       "Rodentia           3160\n",
+       "Hominidae          2291\n",
+       "Vertebrata          749\n",
+       "Drosophilidae       668\n",
+       "Cetartiodactyla     646\n",
+       "Chromadorea         597\n",
+       "Bilateria           486\n",
+       "Poales              399\n",
+       "Rhabditida          389\n",
+       "Name: most_specific_morf, dtype: int64"
+      ]
+     },
+     "execution_count": 37,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "orthogroups['most_specific_morf'].str.split('|').str[-1].value_counts()[:10]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "adb46728-e071-439a-aaf7-d242ed3198d6",
+   "metadata": {},
+   "source": [
+    "Standard emapper and `emapper-hmmer` have a very similar top 10, with many representatives from rather broad categories (eukaryotes, metazoa, bilateria). I was expecting this for HMMER, but not for emapper."
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.8"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
+%% Cell type:markdown id:dac2f763-5bed-46de-8cc6-890cb9ef4d85 tags:
+
+In the manuscript we state that MorF performs at the same level or better than blastp and EggNOG-mapper, annotation pipelines that use sequence similarity. The reviewers challenged us to expand the comparison to more sensitive sequence search options. For ease of comparison we chose to use emapper in profile mode (HMMER). Since we are interested in remote homology we decided to use the HMMs at the `Eukaryota` level of the EggNOG database.
+
+%% Cell type:code id:fa3ab327-3034-49b2-b4dd-06400812de8f tags:
+
+``` python
+from datetime import datetime, timezone
+import pytz
+
+utc_dt = datetime.now(timezone.utc) # UTC time
+dt = utc_dt.astimezone()
+tz = pytz.timezone('Europe/Berlin')
+berlin_now = datetime.now(tz)
+print(f'{berlin_now:%Y-%m-%d %H:%M}')
+```
+
+%% Output
+
+    2023-01-09 16:55
+
+%% Cell type:markdown id:17a5b145-106d-493b-a6b8-56ece838561b tags:
+
+# Agreement between sequence profile searches and morphologs
+
+We will compare the annotation produced by AlphaFold+FoldSeek against that produced by EggNOG-mapper in `hmmer` mode. If our idea worked well, we should see that in the overwhelming majority of cases the structural pipeline identifies the same annotation for each _Spongilla_ protein.
+
+%% Cell type:code id:33bfb60a-09ad-4295-9c76-0b4c1e25f0e7 tags:
+
+``` python
+import glob
+from os.path import exists
+
+import pandas as pd
+import numpy as np
+
+import matplotlib.pyplot as plt
+from upsetplot import plot as upset
+```
+
+%% Cell type:markdown id:aebf5571-df8e-4a37-ade0-a9c66a6d4b74 tags:
+
+Read the two tables:
+
+%% Cell type:code id:95f5b02a-83e9-4eb6-a322-c15368890d2e tags:
+
+``` python
+morf = pd.read_parquet('../data/results/structure_annotation.parquet')
+hmmer = pd.read_csv('../data/profile/slac_hmmer.emapper.annotations', sep='\t', skiprows=4, skipfooter=3, engine='python')
+emapper = pd.read_csv('../data/results/Slacustris_eggnog.tsv', sep='\t')
+```
+
+%% Cell type:markdown id:e501c7b6-5201-4044-b709-80edf3fea48c tags:
+
+Identify the bit score cut off and threshold the structure annotation:
+
+%% Cell type:code id:4cee8058-943b-40ff-bf2a-e79fb918b3e4 tags:
+
+``` python
+bitscore_cut_off = np.exp(5)
+keep = morf['bit score'] >= bitscore_cut_off
+morf = morf[keep].copy()
+```
+
+%% Cell type:markdown id:c59bd41f-e827-4bbe-b742-93c0ac5b64fa tags:
+
+extract protein IDs from the hmmer results so we can merge:
+
+%% Cell type:code id:9e998c73-6e3d-4e71-a232-2f21701e52df tags:
+
+``` python
+hmmer["protein_id"] = hmmer["#query"].str.split(".").str[1].astype(int)
+```
+
+%% Cell type:markdown id:03e9553c-08df-4fac-afe1-8690e2a62f16 tags:
+
+How many proteins are annotated by each approach?
+
+%% Cell type:code id:343086a8-9344-454b-8628-a34fc5e5a649 tags:
+
+``` python
+morf.shape, hmmer.shape, emapper.shape
+```
+
+%% Output
+
+    ((25232, 30), (28897, 22), (17990, 11))
+
+%% Cell type:markdown id:793bf267-9baa-4fd3-b9f1-23f1ee2a6a76 tags:
+
+How many proteins don't get a name?
+
+%% Cell type:code id:01caaf09-160f-4ec2-bf0d-895551ad141c tags:
+
+``` python
+(morf['Preferred_name'] == '-').sum(), (hmmer['Preferred_name'] == '-').sum(), (emapper['Preferred_name'] == '-').sum()
+```
+
+%% Output
+
+    (5206, 11724, 5317)
+
+%% Cell type:markdown id:74d30005-698d-470b-b48b-af8824b954f4 tags:
+
+How many proteins don't get a description?
+
+%% Cell type:code id:a84742df-0c9c-48fc-b716-bf02ca4fb0bd tags:
+
+``` python
+(morf['Description'] == '-').sum(), (hmmer['Description'] == '-').sum(), (emapper['Description'] == '-').sum()
+```
+
+%% Output
+
+    (38, 2592, 596)
+
+%% Cell type:markdown id:7d04e462-be6c-4316-84d4-4185a2d8528c tags:
+
+While `emapper-hmmer` annotates more proteins, it also annotates them at a less useful level (no name); effectively, MorF still annotates a larger part of the _Spongilla_ proteome.
+
+# What is the level of detail given by each modality?
+
+We will use the amount of orthogroups as a proxy for that. If annotation via hmmer is more vague we would expect to consistently find less orthogroups listed per protein.
+
+This is an inherently flawed comparison, as MorF looks for the best morpholog, which is going to be a real protein rather than an orthologous group, as is the case for emapper. However, the argument could be made that if MorF agrees with emapper/emapper-hmmer on the eukaryote or root level, then the additional detail brought by using a best-hit approach might be beneficial.
+
+%% Cell type:code id:4f6a0e0c-c31b-4c99-af3e-f3e5f7de97ed tags:
+
+``` python
+morf['#OGs'] = morf['eggNOG_OGs'].str.split(',').apply(len)
+hmmer['#OGs'] = hmmer['eggNOG_OGs'].str.split(',').apply(len)
+emapper['#OGs'] = emapper['eggNOG_OGs'].str.split(',').apply(len)
+```
+
+%% Cell type:code id:483f8d88-913c-493d-9ced-d1c5c523b8e3 tags:
+
+``` python
+fig, ax = plt.subplots()
+ax.hist(morf['#OGs'], bins=20, label='MorF', alpha=0.5, density=True)
+ax.hist(emapper['#OGs'], bins=20, label='emapper', alpha=0.5, density=True)
+ax.hist(hmmer['#OGs'], bins=20, label='emapper-hmmer', alpha=0.5, density=True)
+ax.legend();
+```
+
+%% Output
+
+
+
+%% Cell type:markdown id:52950276-189a-4105-8b26-29f1ef9dc3b1 tags:
+
+MorF's distribution is clearly shifted to the right. Let's quantify it:
+
+%% Cell type:code id:e53585a7-b2d8-4ad7-90d4-e1baace690a2 tags:
+
+``` python
+summaries = {
+    'MorF': morf['#OGs'].describe(),
+    'emapper': emapper['#OGs'].describe(),
+    'emapper-hmmer': hmmer['#OGs'].describe(),
+}
+
+pd.DataFrame(summaries)
+```
+
+%% Output
+
+                   MorF       emapper  emapper-hmmer
+    count  25232.000000  17990.000000   28897.000000
+    mean       8.283767      5.213897       5.350486
+    std        2.327989      2.077985       2.231996
+    min        2.000000      2.000000       2.000000
+    25%        7.000000      4.000000       4.000000
+    50%        8.000000      4.000000       5.000000
+    75%       10.000000      7.000000       7.000000
+    max       17.000000     13.000000      16.000000
+
+%% Cell type:markdown id:86e04dcb-7680-4471-8a45-b0d68ad67b31 tags:
+
+Interesting to see that the standard deviation is essentially the same in all distributions! MorF annotates, on average, 3 more OGs per protein. This is probably a product of how it works, namely by getting a best hit and assigning all its information to the query protein, but since standard `emapper` and `emapper-hmmer` are essentially the same distribution this may be more important.
+
+# How much does each modality annotate?
+
+We will visualize the different subsets of annotation overlap with an upset plot.
+
+%% Cell type:code id:69d79788-2835-4d54-a97f-841877b1b090 tags:
+
+``` python
+total_proteins = 41943
+```
+
+%% Cell type:code id:bb1646f2-8a27-4bbc-9a2b-20e7ed45d18c tags:
+
+``` python
+sequence = np.intersect1d(emapper['protein_id'], hmmer['protein_id'])
+in_all = np.intersect1d(sequence, morf['protein_id'])
+
+hmmer_morf = np.intersect1d(morf['protein_id'], hmmer['protein_id'])
+hmmer_morf = np.setdiff1d(hmmer_morf, emapper['protein_id'])
+
+emapper_morf = np.intersect1d(morf['protein_id'], emapper['protein_id'])
+emapper_morf = np.setdiff1d(emapper_morf, hmmer['protein_id'])
+
+emapper_hmmer = np.intersect1d(hmmer['protein_id'], emapper['protein_id'])
+emapper_hmmer = np.setdiff1d(emapper_hmmer, morf['protein_id'])
+
+morf_only = np.setdiff1d(morf['protein_id'], hmmer['protein_id'])
+morf_only = np.setdiff1d(morf_only, emapper['protein_id'])
+
+hmmer_only = np.setdiff1d(hmmer['protein_id'], morf['protein_id'])
+hmmer_only = np.setdiff1d(hmmer_only, emapper['protein_id'])
+
+emapper_only = np.setdiff1d(emapper['protein_id'], morf['protein_id'])
+emapper_only = np.setdiff1d(emapper_only, hmmer['protein_id'])
+```
+
+%% Cell type:code id:993e7652-aff9-4880-a54f-4fa22e3fc169 tags:
+
+``` python
+all_annotated = np.concatenate((morf['protein_id'], hmmer['protein_id'], emapper['protein_id']))
+all_unique = np.unique(all_annotated)
+```
+
+%% Cell type:code id:85c67750-3125-412a-8179-71b0401858cb tags:
+
+``` python
+counts = [
+    total_proteins - len(all_unique),
+    len(morf_only),
+    len(hmmer_only),
+    len(hmmer_morf),
+    len(emapper_only),
+    len(emapper_morf),
+    len(emapper_hmmer),
+    len(in_all),
+]
+```
+
+%% Cell type:code id:d3b9c02c-e388-4cfb-9255-d824f25a368a tags:
+
+``` python
+result = {
+    'emapper': [False, False, False, False, True, True, True, True],
+    'emapper-hmmer': [False, False, True, True, False, False, True, True],
+    'MorF': [False, True, False, True, False, True, False, True],
+    'counts': counts
+}
+
+overlap = pd.DataFrame(result)
+overlap.set_index(['emapper', 'emapper-hmmer', 'MorF'], inplace=True)
+```
+
+%% Cell type:code id:b69d5175-0d57-475c-8f46-62be8265beab tags:
+
+``` python
+subplots = upset(overlap, sum_over='counts')
+subplots['intersections'].set_title('#proteins annotated by each source');
+```
+
+%% Output
+
+
+
+%% Cell type:markdown id:eea1454f-71bc-4fcf-8d46-737610063c73 tags:
+
+This plot demonstrates the sensitivity of sequence profiles; there aren't many annotations that HMMER doesn't find :)
+
+a sanity check:
+
+%% Cell type:code id:82814d7f-d401-49fd-aedf-9b1f6702f150 tags:
+
+``` python
+overlap.sum()
+```
+
+%% Output
+
+    counts    41943
+    dtype: int64
+
+%% Cell type:markdown id:1c5f1532-90b8-4552-92f5-9230c3c5b57e tags:
+
+this makes sense. Now let's have a look at the IDs that overlap:
+
+%% Cell type:code id:a412b367-b3b7-46ad-9f22-77dd3509521f tags:
+
+``` python
+sequence = np.intersect1d(emapper['protein_id'], hmmer['protein_id'])
+keep = np.intersect1d(sequence, morf['protein_id'])
+
+len(keep)
+```
+
+%% Output
+
+    16346
+
+%% Cell type:markdown id:50341c58-e419-4762-baa4-0d895576b0eb tags:
+
+We will compare the level of detail and the agreement between the three modalities. Let's start by subsetting the tables before merging:
+
+%% Cell type:code id:85664620-0bb3-410b-bc7c-e75ad2a90c71 tags:
+
+``` python
+morf = morf.set_index("protein_id").loc[keep].copy()
+emapper = emapper.set_index("protein_id").loc[keep].copy()
+hmmer = hmmer.set_index("protein_id").loc[keep].copy()
+```
+
+%% Cell type:code id:add4fa47-8fbd-4a95-b522-1cf6bb0a0fd6 tags:
+
+``` python
+orthogroups = emapper[['eggNOG_OGs']].join(hmmer[['eggNOG_OGs']],  lsuffix='_emapper', rsuffix='_hmmer').join(morf[['eggNOG_OGs']])
+```
+
+%% Cell type:code id:72071b54-9db9-4a50-a4d8-4828453e6115 tags:
+
+``` python
+orthogroups.columns = ['emapper', 'hmmer', 'morf']
+```
+
+%% Cell type:markdown id:20c96b85-54f7-453f-a286-ff95a3385c10 tags:
+
+## EggNOG most specific OrthoGroup level
+
+this is the ideal scenario: for how many cases do the annotation pipelines put a gene in the same group of orthologous genes? Extract the EggNOG OG information and compare. We will always examine both ways (source 1 included in source 2 or vice versa) and count both cases as positives.
+
+%% Cell type:code id:859149f7-05d4-4241-99b6-1b8cc20eb558 tags:
+
+``` python
+def keep_last(row):
+    """
+    A function to isolate the root EggNOG orthogroup.
+
+    Expects a comma-separated string where the root orthogroup
+    contains the word 'root'.
+    """
+    x = np.array(row.split(','))
+    return x[-1]
+```
+
+%% Cell type:code id:45f4676c-6654-40e7-bee3-1cf4f61d36ec tags:
+
+``` python
+for source in ['emapper', 'hmmer', 'morf']:
+    orthogroups['most_specific_' + source] = orthogroups[source].apply(keep_last)
+```
+
+%% Cell type:markdown id:b5138fdc-d0f4-45f0-91ff-e6ac9634f084 tags:
+
+Compare the root orthogroup lists of each gene between tables. Hitting at least one is considered a success.
+
+%% Cell type:code id:66793098-a668-4e0a-8999-9e33a95a7e86 tags:
+
+``` python
+def contains_OG(row, source1='morf', source2='emapper', base='most_specific_'):
+    if row[base + source1] is None or row[base + source2] is None:
+        return None
+
+    s1_contains_s2 = row[base + source1] in row[source2]
+    s2_contains_s1 = row[base + source2] in row[source1]
+    return s1_contains_s2 | s2_contains_s1
+```
+
+%% Cell type:code id:6c7ecd7f-3531-4870-b078-62840bff6b9f tags:
+
+``` python
+for s1, s2 in [
+    ('morf', 'hmmer'),
+    ('morf', 'emapper'),
+    ('hmmer', 'emapper')
+]:
+    orthogroups['ms_' + s1 + '_' + s2] = orthogroups.apply(contains_OG, axis=1, args=(s1, s2))
+```
+
+%% Cell type:markdown id:286a5e92-d267-4100-890b-ad6b4ea2a11c tags:
+
+## EggNOG eukaryote level OG
+
+since for HMMER we used the eukaryote level OGs, we would expect the significant overlap to happen there:
+
+%% Cell type:code id:3adc0728-ee33-46b7-8f05-a6d2ece5777f tags:
+
+``` python
+def keep_euk(row):
+    """
+    A function to isolate the root EggNOG orthogroup.
+
+    Expects a comma-separated string where the root orthogroup
+    contains the word 'root'.
+    """
+    x = np.array(row.split(','))
+    for og in x:
+        if "Eukaryota" in og:
+            return og
+    else:
+        return None
+```
+
+%% Cell type:code id:7a2f5c9a-fe22-4d4c-ab9f-b69d157c0f27 tags:
+
+``` python
+for source in ['emapper', 'hmmer', 'morf']:
+    orthogroups['euk_' + source] = orthogroups[source].apply(keep_euk)
+```
+
+%% Cell type:markdown id:4df3e0d5-adc5-4514-b8bc-24de39a01f84 tags:
+
+See if the eukaryote orthogroup is shared between modalities.
+
+%% Cell type:code id:4382f954-010b-486d-8d28-89cb5bae400b tags:
+
+``` python
+for s1, s2 in [
+    ('morf', 'hmmer'),
+    ('morf', 'emapper'),
+    ('hmmer', 'emapper')
+]:
+    orthogroups['euk_' + s1 + '_' + s2] = orthogroups.apply(contains_OG, axis=1, args=(s1, s2, 'euk_'))
+```
+
+%% Cell type:markdown id:d631a6e9-e7e2-4433-9c9e-707aecb6da86 tags:
+
+## EggNOG root OrthoGroup level
+
+this is the most pertinent level: for how many cases do the two annotation pipelines put a gene in the same group of orthologous genes? Extract the EggNOG OG information and compare. To facilitate the comparison we will only look at the root level, but we could extend this as much as we want (e.g. pick the most specific orthogroup for structure and ask if it is found in the sequence annotation).
+
+Isolate the root orthogroup for each peptide. If multiple root orthogroups are present, keep all of them.
+
+%% Cell type:code id:5d672a2f-adfa-46da-8548-0657836576a3 tags:
+
+``` python
+def keep_root(row):
+    """
+    A function to isolate the root EggNOG orthogroup.
+
+    Expects a comma-separated string where the root orthogroup
+    contains the word 'root'.
+    """
+    x = np.array(row.split(','))
+    keep = np.zeros(len(x), dtype=bool)
+    for i, og in enumerate(x):
+        keep[i] = 'root' in og
+#     print(x, keep)
+    return x[keep]
+```
+
+%% Cell type:code id:5a683094-4840-4ede-b1a6-ba21a0f49bde tags:
+
+``` python
+for source in ['emapper', 'hmmer', 'morf']:
+    orthogroups['root_' + source] = orthogroups[source].apply(keep_root)
+```
+
+%% Cell type:markdown id:c4248331-d51b-4209-a0e1-57bf02ad53ea tags:
+
+Compare the root orthogroup lists of each gene between tables. Hitting at least one is considered a success.
+
+%% Cell type:code id:f31398bf-eeda-4c49-9f35-e11acbe739d9 tags:
+
+``` python
+def is_contained_in(row, x='eggNOG_OGs_struct', y='eggNOG_OGs_seq'):
+    overlap = np.intersect1d(row[x], row[y])
+    return len(overlap) > 0
+```
+
+%% Cell type:code id:588ea19c-6661-4a82-bcda-08253f7c583d tags:
+
+``` python
+for s1, s2 in [
+    ('morf', 'hmmer'),
+    ('morf', 'emapper'),
+    ('hmmer', 'emapper')
+]:
+
+    orthogroups['root_' + s1 + '_' + s2] = orthogroups.apply(is_contained_in, axis=1, args=('root_' + s1, 'root_' + s2))
+```
+
+%% Cell type:markdown id:a9183c22-29ff-4956-96dc-16daaae97e6d tags:
+
+# Overlap agreement
+
+Here we will just print the results:
+
+%% Cell type:code id:6eb5faba-729c-4745-b9a7-3c2586504e42 tags:
+
+``` python
+for s1, s2 in [
+    ('morf', 'hmmer'),
+    ('morf', 'emapper'),
+    ('hmmer', 'emapper')
+]:
+    specific_overlap = orthogroups['ms_' + s1 + '_' + s2].sum()
+    euk_overlap = orthogroups['euk_' + s1 + '_' + s2].sum()
+    root_overlap = np.sum(orthogroups['root_' + s1 + '_' + s2]).sum()
+    print(f'{s1} and {s2}:')
+    total = len(keep)
+    print(f'\t- most specific OG: {specific_overlap} / {total} ({specific_overlap / total * 100:.2f}%)')
+    total = np.sum(~(orthogroups['euk_' + s1].isnull() | orthogroups['euk_' + s2].isnull()))
+    print(f'\t- eukaryotic OG: {euk_overlap} / {total} ({euk_overlap / total * 100:.2f}%)')
+    total = len(keep)
+    print(f'\t- root OG: {root_overlap} / {total} ({root_overlap / total * 100:.2f}%)')
+```
+
+%% Output
+
+    morf and hmmer:
+    	- most specific OG: 7959 / 16346 (48.69%)
+    	- eukaryotic OG: 13038 / 15889 (82.06%)
+    	- root OG: 14251 / 16346 (87.18%)
+    morf and emapper:
+    	- most specific OG: 9280 / 16346 (56.77%)
+    	- eukaryotic OG: 14030 / 15745 (89.11%)
+    	- root OG: 14827 / 16346 (90.71%)
+    hmmer and emapper:
+    	- most specific OG: 10909 / 16346 (66.74%)
+    	- eukaryotic OG: 13828 / 16032 (86.25%)
+    	- root OG: 14899 / 16346 (91.15%)
+
+%% Cell type:markdown id:7db8fabf-58d7-4be1-86c8-eed0b20ec250 tags:
+
+Where do the orthogroups come from? Do the methods differ in the level of detail they provide?
+
+%% Cell type:code id:62496fa8-166a-460c-9354-c49bcfd37fa0 tags:
+
+``` python
+orthogroups['most_specific_hmmer'].str.split('|').str[-1].value_counts()[:10]
+```
+
+%% Output
+
+    Metazoa           6658
+    Bilateria         1613
+    Eukaryota         1140
+    Actinopterygii     913
+    Chordata           768
+    Arthropoda         519
+    Vertebrata         464
+    Opisthokonta       444
+    Poales             355
+    Lepidoptera        210
+    Name: most_specific_hmmer, dtype: int64
+
+%% Cell type:code id:539bd579-25c5-46f6-b034-7141ad8b76f8 tags:
+
+``` python
+orthogroups['most_specific_emapper'].str.split('|').str[-1].value_counts()[:10]
+```
+
+%% Output
+
+    Metazoa           7692
+    Bilateria         1340
+    Actinopterygii    1146
+    Eukaryota          970
+    Chordata           705
+    Vertebrata         627
+    Opisthokonta       398
+    Rodentia           273
+    Mammalia           251
+    Arthropoda         233
+    Name: most_specific_emapper, dtype: int64
+
+%% Cell type:code id:1e004899-37ae-4005-a59d-e64bc867a504 tags:
+
+``` python
+orthogroups['most_specific_morf'].str.split('|').str[-1].value_counts()[:10]
+```
+
+%% Output
+
+    Actinopterygii     3216
+    Rodentia           3160
+    Hominidae          2291
+    Vertebrata          749
+    Drosophilidae       668
+    Cetartiodactyla     646
+    Chromadorea         597
+    Bilateria           486
+    Poales              399
+    Rhabditida          389
+    Name: most_specific_morf, dtype: int64
+
+%% Cell type:markdown id:adb46728-e071-439a-aaf7-d242ed3198d6 tags:
+
+Standard emapper and `emapper-hmmer` have a very similar top 10, with many representatives from rather broad categories (eukaryotes, metazoa, bilateria). I was expecting this for HMMER, but not for emapper.
--- a/analysis/revision-table3-revisit.ipynb
+++ b/analysis/revision-table3-revisit.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "2ab498a2-bfa8-49c7-93ee-e5d37054a460",
+   "metadata": {},
+   "source": [
+    "# Structure-sequence agreement in model species\n",
+    "\n",
+    "In an effort to get a feeling for how often morphologs were orthologs, we searched with AlphaFoldDB against itself. In Table 3 of the manuscript we reported that proteins that had non-species morphologs (very) often were also orthologs. The reviewers pointed out that these orthologs might plausibly come from very closely related species, thus weakening our claim that structural similarity might detect functional similarity or orthology over longer evolutionary distances. Here we are revisiting this analysis and looking to exclude "
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.8"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
+%% Cell type:markdown id:2ab498a2-bfa8-49c7-93ee-e5d37054a460 tags:
+
+# Structure-sequence agreement in model species
+
+In an effort to get a feeling for how often morphologs were orthologs, we searched with AlphaFoldDB against itself. In Table 3 of the manuscript we reported that proteins that had non-species morphologs (very) often were also orthologs. The reviewers pointed out that these orthologs might plausibly come from very closely related species, thus weakening our claim that structural similarity might detect functional similarity or orthology over longer evolutionary distances. Here we are revisiting this analysis and looking to exclude
--- a/analysis/suppl-model_species_validation.ipynb
+++ b/analysis/suppl-model_species_validation.ipynb
@@ -201,7 +201,7 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-   "version": "3.9.13"
+   "version": "3.10.8"
  }
 },
 "nbformat": 4,

--- a/analysis/suppl-struct_seq_agreement.ipynb
+++ b/analysis/suppl-struct_seq_agreement.ipynb
@@ -663,7 +663,7 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-   "version": "3.9.13"
+   "version": "3.10.8"
  }
 },
 "nbformat": 4,