CodeCutTech
diff --git a/‎Chapter5/natural_language_processing.ipynb
Lines changed: 802 additions & 0 deletions b/‎Chapter5/natural_language_processing.ipynb
Lines changed: 802 additions & 0 deletions
diff --git a/‎Chapter5/spark.ipynb
Lines changed: 177 additions & 2 deletions b/‎Chapter5/spark.ipynb
Lines changed: 177 additions & 2 deletions
diff --git a/‎docs/Chapter1/Chapter1.html
Lines changed: 1 addition & 1 deletion b/‎docs/Chapter1/Chapter1.html
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/Chapter1/set.html
Lines changed: 1 addition & 1 deletion b/‎docs/Chapter1/set.html
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/Chapter5/Chapter5.html
Lines changed: 1 addition & 1 deletion b/‎docs/Chapter5/Chapter5.html
Lines changed: 1 addition & 1 deletion
@@ -1,13 +1,188 @@
 {
  "cells": [
   {
-   "cell_type": "markdown",
-   "id": "b25228f0",
+   "cell_type": "raw",
+   "id": "af6530d4-d251-4240-90f6-eed4704a0a1a",
    "metadata": {},
    "source": [
     "## PySpark"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "06ae6e73-bfad-45fb-b338-048da0c0c789",
+   "metadata": {},
+   "source": [
+    "## 3 Powerful Ways to Create PySpark DataFrames"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "66e1b5d0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from pyspark.sql import SparkSession\n",
+    "\n",
+    "spark = SparkSession.builder.getOrCreate()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "08648f09-21cd-42d0-8b0f-be04fa7e2002",
+   "metadata": {},
+   "source": [
+    "Here are the three powerful methods to create DataFrames in PySpark, each with its own advantages:"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b35944a8-7824-4971-9cc5-cf847c5269fb",
+   "metadata": {},
+   "source": [
+    "1. Using StructType and StructField:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "a16e73a8",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "+-------+---+\n",
+      "|   name|age|\n",
+      "+-------+---+\n",
+      "|  Alice| 25|\n",
+      "|    Bob| 30|\n",
+      "|Charlie| 35|\n",
+      "+-------+---+\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "from pyspark.sql.types import StructType, StructField, StringType, IntegerType\n",
+    "\n",
+    "\n",
+    "data = [(\"Alice\", 25), (\"Bob\", 30), (\"Charlie\", 35)]\n",
+    "schema = StructType(\n",
+    "    [StructField(\"name\", StringType(), True), StructField(\"age\", IntegerType(), True)]\n",
+    ")\n",
+    "\n",
+    "df = spark.createDataFrame(data, schema)\n",
+    "df.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d6db8d65-4aa9-4f2a-bbf1-2a85e62b987a",
+   "metadata": {},
+   "source": [
+    "Pros:\n",
+    "- Explicit schema definition, giving you full control over data types\n",
+    "- Helps catch data type mismatches early\n",
+    "- Ideal when you need to ensure data consistency and type safety\n",
+    "- Can improve performance by avoiding schema inference"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9ee5ab77-dd71-4e83-bf66-f7b5704ead09",
+   "metadata": {},
+   "source": [
+    "2. Using Row objects:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "bfca4bd7",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "+-------+---+\n",
+      "|   name|age|\n",
+      "+-------+---+\n",
+      "|  Alice| 25|\n",
+      "|    Bob| 30|\n",
+      "|Charlie| 35|\n",
+      "+-------+---+\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "from pyspark.sql import Row\n",
+    "\n",
+    "data = [Row(name=\"Alice\", age=25), Row(name=\"Bob\", age=30), Row(name=\"Charlie\", age=35)]\n",
+    "df = spark.createDataFrame(data)\n",
+    "df.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8812e9a0-c54d-44f4-8300-5ec0bdf53061",
+   "metadata": {},
+   "source": [
+    "Pros:\n",
+    "- More Pythonic approach, leveraging named tuples\n",
+    "- Good for scenarios where data structure might evolve"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ef78d9a3-cd5a-44bb-a1d9-155e67c3743f",
+   "metadata": {},
+   "source": [
+    "3. From Pandas DataFrame:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "9f8050dc",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "+-------+---+\n",
+      "|   name|age|\n",
+      "+-------+---+\n",
+      "|  Alice| 25|\n",
+      "|    Bob| 30|\n",
+      "|Charlie| 35|\n",
+      "+-------+---+\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "pandas_df = pd.DataFrame({\"name\": [\"Alice\", \"Bob\", \"Charlie\"], \"age\": [25, 30, 35]})\n",
+    "df = spark.createDataFrame(pandas_df)\n",
+    "df.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "aaf54d83-69a5-47ec-b0c7-bf435e08fc5d",
+   "metadata": {},
+   "source": [
+    "Pros:\n",
+    "- Familiar to data scientists who frequently use Pandas"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "8edc16c3",
 
@@ -271,7 +271,7 @@
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/better_pandas.html">6.12. Better Pandas</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/testing.html">6.13. Testing</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/SQL.html">6.14. SQL Libraries</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../Chapter5/spark.html">6.15. PySpark</a></li>
+<li class="toctree-l2"><a class="reference internal" href="../Chapter5/spark.html">6.15. 3 Powerful Ways to Create PySpark DataFrames</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/llm.html">6.16. Large Language Model (LLM)</a></li>
 </ul>
 </li>
 
@@ -271,7 +271,7 @@
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/better_pandas.html">6.12. Better Pandas</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/testing.html">6.13. Testing</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/SQL.html">6.14. SQL Libraries</a></li>
-<li class="toctree-l2"><a class="reference internal" href="../Chapter5/spark.html">6.15. PySpark</a></li>
+<li class="toctree-l2"><a class="reference internal" href="../Chapter5/spark.html">6.15. 3 Powerful Ways to Create PySpark DataFrames</a></li>
 <li class="toctree-l2"><a class="reference internal" href="../Chapter5/llm.html">6.16. Large Language Model (LLM)</a></li>
 </ul>
 </li>
 
@@ -271,7 +271,7 @@
 <li class="toctree-l2"><a class="reference internal" href="better_pandas.html">6.12. Better Pandas</a></li>
 <li class="toctree-l2"><a class="reference internal" href="testing.html">6.13. Testing</a></li>
 <li class="toctree-l2"><a class="reference internal" href="SQL.html">6.14. SQL Libraries</a></li>
-<li class="toctree-l2"><a class="reference internal" href="spark.html">6.15. PySpark</a></li>
+<li class="toctree-l2"><a class="reference internal" href="spark.html">6.15. 3 Powerful Ways to Create PySpark DataFrames</a></li>
 <li class="toctree-l2"><a class="reference internal" href="llm.html">6.16. Large Language Model (LLM)</a></li>
 </ul>
 </li>