{ "cells": [ { "cell_type": "markdown", "id": "7e9349d0", "metadata": {}, "source": [ "# Poisoned Mushroom Dataset" ] }, { "cell_type": "markdown", "id": "382f85ee", "metadata": {}, "source": [ "We are going to take a quick tour of machine learning by working on an example dataset. The mushroom dataset\n", "categorizes mushrooms as 'poisonous' or 'edible' and collects several descriptive properties of each mushroom example." ] }, { "cell_type": "code", "execution_count": 1, "id": "771ea7b9-e7de-43c7-96ae-bc3a30862715", "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import os" ] }, { "cell_type": "markdown", "id": "c1121f80", "metadata": {}, "source": [ "## Loading the dataset" ] }, { "cell_type": "code", "execution_count": 2, "id": "95d691a5-1638-4953-b929-761a8095a773", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | class | \n", "cap-shape | \n", "cap-surface | \n", "cap-color | \n", "ruises | \n", "odor | \n", "gill-attachment | \n", "gill-spacing | \n", "gill-size | \n", "gill-color | \n", "... | \n", "stalk-surface-below-ring | \n", "stalk-color-above-ring | \n", "stalk-color-below-ring | \n", "veil-type | \n", "veil-color | \n", "ring-number | \n", "ring-type | \n", "spore-print-color | \n", "population | \n", "habitat | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "e | \n", "x | \n", "f | \n", "n | \n", "f | \n", "n | \n", "f | \n", "w | \n", "n | \n", "b | \n", "... | \n", "y | \n", "w | \n", "p | \n", "NaN | \n", "n | \n", "o | \n", "p | \n", "w | \n", "v | \n", "NaN | \n", "
1 | \n", "p | \n", "NaN | \n", "y | \n", "g | \n", "t | \n", "NaN | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "n | \n", "c | \n", "p | \n", "w | \n", "n | \n", "e | \n", "NaN | \n", "y | \n", "g | \n", "
2 | \n", "e | \n", "b | \n", "y | \n", "n | \n", "t | \n", "n | \n", "f | \n", "c | \n", "NaN | \n", "n | \n", "... | \n", "s | \n", "p | \n", "NaN | \n", "p | \n", "w | \n", "o | \n", "p | \n", "b | \n", "y | \n", "w | \n", "
3 | \n", "e | \n", "x | \n", "g | \n", "g | \n", "t | \n", "n | \n", "f | \n", "w | \n", "b | \n", "n | \n", "... | \n", "s | \n", "p | \n", "NaN | \n", "p | \n", "w | \n", "n | \n", "n | \n", "NaN | \n", "NaN | \n", "d | \n", "
4 | \n", "e | \n", "NaN | \n", "f | \n", "NaN | \n", "t | \n", "n | \n", "a | \n", "w | \n", "n | \n", "n | \n", "... | \n", "k | \n", "NaN | \n", "w | \n", "p | \n", "w | \n", "NaN | \n", "l | \n", "w | \n", "v | \n", "d | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
25981 | \n", "e | \n", "f | \n", "NaN | \n", "r | \n", "f | \n", "n | \n", "f | \n", "NaN | \n", "n | \n", "NaN | \n", "... | \n", "NaN | \n", "n | \n", "p | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "v | \n", "NaN | \n", "
25982 | \n", "e | \n", "f | \n", "s | \n", "e | \n", "f | \n", "NaN | \n", "f | \n", "c | \n", "n | \n", "y | \n", "... | \n", "y | \n", "w | \n", "p | \n", "p | \n", "w | \n", "NaN | \n", "p | \n", "r | \n", "y | \n", "d | \n", "
25983 | \n", "p | \n", "f | \n", "g | \n", "e | \n", "NaN | \n", "NaN | \n", "a | \n", "c | \n", "b | \n", "b | \n", "... | \n", "y | \n", "w | \n", "NaN | \n", "p | \n", "w | \n", "o | \n", "p | \n", "h | \n", "v | \n", "m | \n", "
25984 | \n", "e | \n", "x | \n", "g | \n", "g | \n", "t | \n", "n | \n", "f | \n", "w | \n", "b | \n", "h | \n", "... | \n", "f | \n", "NaN | \n", "NaN | \n", "p | \n", "w | \n", "t | \n", "e | \n", "NaN | \n", "s | \n", "NaN | \n", "
25985 | \n", "e | \n", "b | \n", "y | \n", "y | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "y | \n", "... | \n", "k | \n", "g | \n", "o | \n", "p | \n", "w | \n", "o | \n", "l | \n", "k | \n", "s | \n", "g | \n", "
25986 rows × 23 columns
\n", "\n", " | class | \n", "cap-shape | \n", "cap-surface | \n", "cap-color | \n", "ruises | \n", "odor | \n", "gill-attachment | \n", "gill-spacing | \n", "gill-size | \n", "gill-color | \n", "... | \n", "stalk-surface-below-ring | \n", "stalk-color-above-ring | \n", "stalk-color-below-ring | \n", "veil-type | \n", "veil-color | \n", "ring-number | \n", "ring-type | \n", "spore-print-color | \n", "population | \n", "habitat | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | \n", "25986 | \n", "22513 | \n", "22507 | \n", "22527 | \n", "22514 | \n", "22536 | \n", "22505 | \n", "22587 | \n", "22494 | \n", "22418 | \n", "... | \n", "22563 | \n", "22413 | \n", "22553 | \n", "22489 | \n", "22483 | \n", "22497 | \n", "22478 | \n", "22493 | \n", "22475 | \n", "22502 | \n", "
unique | \n", "2 | \n", "6 | \n", "4 | \n", "10 | \n", "2 | \n", "9 | \n", "2 | \n", "2 | \n", "2 | \n", "12 | \n", "... | \n", "4 | \n", "9 | \n", "9 | \n", "1 | \n", "4 | \n", "3 | \n", "5 | \n", "9 | \n", "6 | \n", "7 | \n", "
top | \n", "e | \n", "x | \n", "y | \n", "n | \n", "f | \n", "n | \n", "f | \n", "c | \n", "b | \n", "b | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "w | \n", "v | \n", "d | \n", "
freq | \n", "14354 | \n", "7674 | \n", "7602 | \n", "4810 | \n", "12361 | \n", "6986 | \n", "17811 | \n", "16092 | \n", "13997 | \n", "3679 | \n", "... | \n", "10619 | \n", "8580 | \n", "8403 | \n", "22489 | \n", "15742 | \n", "15713 | \n", "8501 | \n", "5085 | \n", "8409 | \n", "6573 | \n", "
4 rows × 23 columns
\n", "\n", " | cap-color-encoded | \n", "class-encoded | \n", "
---|---|---|
count | \n", "22527.000000 | \n", "22527.000000 | \n", "
mean | \n", "4.473432 | \n", "0.449061 | \n", "
std | \n", "2.677623 | \n", "0.497410 | \n", "
min | \n", "0.000000 | \n", "0.000000 | \n", "
25% | \n", "3.000000 | \n", "0.000000 | \n", "
50% | \n", "4.000000 | \n", "0.000000 | \n", "
75% | \n", "7.000000 | \n", "1.000000 | \n", "
max | \n", "9.000000 | \n", "1.000000 | \n", "