add autogluon

khuyentran1401 · khuyentran1401 · commit 41fb78873847 · 2024-06-10T15:47:32.000-05:00
diff --git a/Chapter5/machine_learning.ipynb b/Chapter5/machine_learning.ipynb
@@ -2480,6 +2480,90 @@
    "source": [
     "[Link to Lazy Predict](https://github.com/shankarpandala/lazypredict)."
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ee14002f",
+   "metadata": {},
+   "source": [
+    "### AutoGluon: Fast and Accurate ML in 3 Lines of Code"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "35aec697",
+   "metadata": {},
+   "source": [
+    "The traditional scikit-learn approach requires extensive manual work, including data preprocessing, model selection, and hyperparameter tuning.\n",
+    "\n",
+    "In contrast, AutoGluon automates these tasks, allowing you to train and deploy accurate models with minimal code."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "28784b94",
+   "metadata": {},
+   "source": [
+    "```python\n",
+    "from sklearn.impute import SimpleImputer\n",
+    "from sklearn.preprocessing import OneHotEncoder, StandardScaler\n",
+    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.ensemble import RandomForestClassifier\n",
+    "from sklearn.pipeline import Pipeline\n",
+    "from sklearn.model_selection import GridSearchCV\n",
+    "\n",
+    "# Preprocessing Pipeline\n",
+    "numeric_transformer = SimpleImputer(strategy='mean')\n",
+    "categorical_transformer = OneHotEncoder(handle_unknown='ignore')\n",
+    "\n",
+    "preprocessor = ColumnTransformer(\n",
+    "    transformers=[\n",
+    "        ('num', numeric_transformer, numerical_columns),\n",
+    "        ('cat', categorical_transformer, categorical_columns)\n",
+    "    ])\n",
+    "\n",
+    "# Machine Learning Pipeline\n",
+    "model = RandomForestClassifier()\n",
+    "\n",
+    "pipeline = Pipeline(steps=[\n",
+    "    ('preprocessor', preprocessor),\n",
+    "    ('scaler', StandardScaler()),\n",
+    "    ('model', model)\n",
+    "])\n",
+    "\n",
+    "# Hyperparameter Tuning\n",
+    "param_grid = {\n",
+    "    'model__n_estimators': [100, 200, 300],\n",
+    "    'model__max_depth': [5, 10, None],\n",
+    "    'model__min_samples_split': [2, 5, 10]\n",
+    "}\n",
+    "\n",
+    "grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')\n",
+    "grid_search.fit(X_train, y_train)\n",
+    "grid_search.predict(X_test)\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "25742686",
+   "metadata": {},
+   "source": [
+    "```python\n",
+    "from autogluon.tabular import TabularPredictor\n",
+    "\n",
+    "predictor = TabularPredictor(label=\"class\").fit(train_data)\n",
+    "predictions = predictor.predict(test_data)\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9e51ccf5",
+   "metadata": {},
+   "source": [
+    "[Link to AutoGluon](https://bit.ly/45ljoOd)."
+   ]
   }
  ],
  "metadata": {
@@ -2500,7 +2584,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.6"
+   "version": "3.11.4"
   },
   "toc": {
    "base_numbering": 1,
diff --git a/docs/Chapter5/machine_learning.html b/docs/Chapter5/machine_learning.html
@@ -234,6 +234,7 @@
 <li class="toctree-l2"><a class="reference internal" href="../Chapter2/dataclasses.html">3.7. Data Classes</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter2/typing.html">3.8. Typing</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter2/pathlib.html">3.9. pathlib</a></li>
+<li class="toctree-l2"><a class="reference internal" href="../Chapter2/pydantic.html">3.10. Pydantic</a></li>
 </ul>
 </li>
 <li class="toctree-l1 has-children"><a class="reference internal" href="../Chapter3/Chapter3.html">4. Pandas</a><input class="toctree-checkbox" id="toctree-checkbox-4" name="toctree-checkbox-4" type="checkbox"/><label class="toctree-toggle" for="toctree-checkbox-4"><i class="fa-solid fa-chevron-down"></i></label><ul>
@@ -529,6 +530,7 @@ <h2> Contents </h2>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#mlem-capture-your-machine-learning-model-s-metadata">6.5.15. MLEM: Capture Your Machine Learning Model’s Metadata</a></li>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#distributed-machine-learning-with-mllib">6.5.16. Distributed Machine Learning with MLlib</a></li>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#rapid-prototyping-and-comparison-of-basic-models-with-lazy-predict">6.5.17. Rapid Prototyping and Comparison of Basic Models with Lazy Predict</a></li>
+<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#autogluon-fast-and-accurate-ml-in-3-lines-of-code">6.5.18. AutoGluon: Fast and Accurate ML in 3 Lines of Code</a></li>
 </ul>
             </nav>
         </div>
@@ -1938,6 +1940,56 @@ <h2><span class="section-number">6.5.17. </span>Rapid Prototyping and Comparison
 </div>
 <p><a class="reference external" href="https://github.com/shankarpandala/lazypredict">Link to Lazy Predict</a>.</p>
 </section>
+<section id="autogluon-fast-and-accurate-ml-in-3-lines-of-code">
+<h2><span class="section-number">6.5.18. </span>AutoGluon: Fast and Accurate ML in 3 Lines of Code<a class="headerlink" href="#autogluon-fast-and-accurate-ml-in-3-lines-of-code" title="Permalink to this heading">#</a></h2>
+<p>The traditional scikit-learn approach requires extensive manual work, including data preprocessing, model selection, and hyperparameter tuning.</p>
+<p>In contrast, AutoGluon automates these tasks, allowing you to train and deploy accurate models with minimal code.</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">from</span> <span class="nn">sklearn.impute</span> <span class="kn">import</span> <span class="n">SimpleImputer</span>
+<span class="kn">from</span> <span class="nn">sklearn.preprocessing</span> <span class="kn">import</span> <span class="n">OneHotEncoder</span><span class="p">,</span> <span class="n">StandardScaler</span>
+<span class="kn">from</span> <span class="nn">sklearn.compose</span> <span class="kn">import</span> <span class="n">ColumnTransformer</span>
+<span class="kn">from</span> <span class="nn">sklearn.ensemble</span> <span class="kn">import</span> <span class="n">RandomForestClassifier</span>
+<span class="kn">from</span> <span class="nn">sklearn.pipeline</span> <span class="kn">import</span> <span class="n">Pipeline</span>
+<span class="kn">from</span> <span class="nn">sklearn.model_selection</span> <span class="kn">import</span> <span class="n">GridSearchCV</span>
+
+<span class="c1"># Preprocessing Pipeline</span>
+<span class="n">numeric_transformer</span> <span class="o">=</span> <span class="n">SimpleImputer</span><span class="p">(</span><span class="n">strategy</span><span class="o">=</span><span class="s1">&#39;mean&#39;</span><span class="p">)</span>
+<span class="n">categorical_transformer</span> <span class="o">=</span> <span class="n">OneHotEncoder</span><span class="p">(</span><span class="n">handle_unknown</span><span class="o">=</span><span class="s1">&#39;ignore&#39;</span><span class="p">)</span>
+
+<span class="n">preprocessor</span> <span class="o">=</span> <span class="n">ColumnTransformer</span><span class="p">(</span>
+    <span class="n">transformers</span><span class="o">=</span><span class="p">[</span>
+        <span class="p">(</span><span class="s1">&#39;num&#39;</span><span class="p">,</span> <span class="n">numeric_transformer</span><span class="p">,</span> <span class="n">numerical_columns</span><span class="p">),</span>
+        <span class="p">(</span><span class="s1">&#39;cat&#39;</span><span class="p">,</span> <span class="n">categorical_transformer</span><span class="p">,</span> <span class="n">categorical_columns</span><span class="p">)</span>
+    <span class="p">])</span>
+
+<span class="c1"># Machine Learning Pipeline</span>
+<span class="n">model</span> <span class="o">=</span> <span class="n">RandomForestClassifier</span><span class="p">()</span>
+
+<span class="n">pipeline</span> <span class="o">=</span> <span class="n">Pipeline</span><span class="p">(</span><span class="n">steps</span><span class="o">=</span><span class="p">[</span>
+    <span class="p">(</span><span class="s1">&#39;preprocessor&#39;</span><span class="p">,</span> <span class="n">preprocessor</span><span class="p">),</span>
+    <span class="p">(</span><span class="s1">&#39;scaler&#39;</span><span class="p">,</span> <span class="n">StandardScaler</span><span class="p">()),</span>
+    <span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="n">model</span><span class="p">)</span>
+<span class="p">])</span>
+
+<span class="c1"># Hyperparameter Tuning</span>
+<span class="n">param_grid</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;model__n_estimators&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">100</span><span class="p">,</span> <span class="mi">200</span><span class="p">,</span> <span class="mi">300</span><span class="p">],</span>
+    <span class="s1">&#39;model__max_depth&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">5</span><span class="p">,</span> <span class="mi">10</span><span class="p">,</span> <span class="kc">None</span><span class="p">],</span>
+    <span class="s1">&#39;model__min_samples_split&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">2</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">10</span><span class="p">]</span>
+<span class="p">}</span>
+
+<span class="n">grid_search</span> <span class="o">=</span> <span class="n">GridSearchCV</span><span class="p">(</span><span class="n">pipeline</span><span class="p">,</span> <span class="n">param_grid</span><span class="p">,</span> <span class="n">cv</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">scoring</span><span class="o">=</span><span class="s1">&#39;accuracy&#39;</span><span class="p">)</span>
+<span class="n">grid_search</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">X_train</span><span class="p">,</span> <span class="n">y_train</span><span class="p">)</span>
+<span class="n">grid_search</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">X_test</span><span class="p">)</span>
+</pre></div>
+</div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">from</span> <span class="nn">autogluon.tabular</span> <span class="kn">import</span> <span class="n">TabularPredictor</span>
+
+<span class="n">predictor</span> <span class="o">=</span> <span class="n">TabularPredictor</span><span class="p">(</span><span class="n">label</span><span class="o">=</span><span class="s2">&quot;class&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">fit</span><span class="p">(</span><span class="n">train_data</span><span class="p">)</span>
+<span class="n">predictions</span> <span class="o">=</span> <span class="n">predictor</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">test_data</span><span class="p">)</span>
+</pre></div>
+</div>
+<p><a class="reference external" href="https://bit.ly/45ljoOd">Link to AutoGluon</a>.</p>
+</section>
 </section>
 
     <script type="text/x-thebe-config">
@@ -2020,6 +2072,7 @@ <h2><span class="section-number">6.5.17. </span>Rapid Prototyping and Comparison
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#mlem-capture-your-machine-learning-model-s-metadata">6.5.15. MLEM: Capture Your Machine Learning Model’s Metadata</a></li>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#distributed-machine-learning-with-mllib">6.5.16. Distributed Machine Learning with MLlib</a></li>
 <li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#rapid-prototyping-and-comparison-of-basic-models-with-lazy-predict">6.5.17. Rapid Prototyping and Comparison of Basic Models with Lazy Predict</a></li>
+<li class="toc-h2 nav-item toc-entry"><a class="reference internal nav-link" href="#autogluon-fast-and-accurate-ml-in-3-lines-of-code">6.5.18. AutoGluon: Fast and Accurate ML in 3 Lines of Code</a></li>
 </ul>
   </nav></div>
 
diff --git a/docs/_sources/Chapter5/machine_learning.ipynb b/docs/_sources/Chapter5/machine_learning.ipynb
@@ -2480,6 +2480,90 @@
    "source": [
     "[Link to Lazy Predict](https://github.com/shankarpandala/lazypredict)."
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ee14002f",
+   "metadata": {},
+   "source": [
+    "### AutoGluon: Fast and Accurate ML in 3 Lines of Code"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "35aec697",
+   "metadata": {},
+   "source": [
+    "The traditional scikit-learn approach requires extensive manual work, including data preprocessing, model selection, and hyperparameter tuning.\n",
+    "\n",
+    "In contrast, AutoGluon automates these tasks, allowing you to train and deploy accurate models with minimal code."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "28784b94",
+   "metadata": {},
+   "source": [
+    "```python\n",
+    "from sklearn.impute import SimpleImputer\n",
+    "from sklearn.preprocessing import OneHotEncoder, StandardScaler\n",
+    "from sklearn.compose import ColumnTransformer\n",
+    "from sklearn.ensemble import RandomForestClassifier\n",
+    "from sklearn.pipeline import Pipeline\n",
+    "from sklearn.model_selection import GridSearchCV\n",
+    "\n",
+    "# Preprocessing Pipeline\n",
+    "numeric_transformer = SimpleImputer(strategy='mean')\n",
+    "categorical_transformer = OneHotEncoder(handle_unknown='ignore')\n",
+    "\n",
+    "preprocessor = ColumnTransformer(\n",
+    "    transformers=[\n",
+    "        ('num', numeric_transformer, numerical_columns),\n",
+    "        ('cat', categorical_transformer, categorical_columns)\n",
+    "    ])\n",
+    "\n",
+    "# Machine Learning Pipeline\n",
+    "model = RandomForestClassifier()\n",
+    "\n",
+    "pipeline = Pipeline(steps=[\n",
+    "    ('preprocessor', preprocessor),\n",
+    "    ('scaler', StandardScaler()),\n",
+    "    ('model', model)\n",
+    "])\n",
+    "\n",
+    "# Hyperparameter Tuning\n",
+    "param_grid = {\n",
+    "    'model__n_estimators': [100, 200, 300],\n",
+    "    'model__max_depth': [5, 10, None],\n",
+    "    'model__min_samples_split': [2, 5, 10]\n",
+    "}\n",
+    "\n",
+    "grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')\n",
+    "grid_search.fit(X_train, y_train)\n",
+    "grid_search.predict(X_test)\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "25742686",
+   "metadata": {},
+   "source": [
+    "```python\n",
+    "from autogluon.tabular import TabularPredictor\n",
+    "\n",
+    "predictor = TabularPredictor(label=\"class\").fit(train_data)\n",
+    "predictions = predictor.predict(test_data)\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9e51ccf5",
+   "metadata": {},
+   "source": [
+    "[Link to AutoGluon](https://bit.ly/45ljoOd)."
+   ]
   }
  ],
  "metadata": {
@@ -2500,7 +2584,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.6"
+   "version": "3.11.4"
   },
   "toc": {
    "base_numbering": 1,
diff --git a/docs/searchindex.js b/docs/searchindex.js