{ "cells": [ { "cell_type": "markdown", "id": "099a20c2-12d1-4e67-9838-0b9197ca2a85", "metadata": {}, "source": [ "# Distribuições\n", "\n", "A estatística descritiva é limitada para resumir dados, visto que dados com características completamente distintas podem ter os mesmos valores para média, mediana e variância, por exemplo. \n", "\n", "Uma forma aprofundada de reconhecer as características dos dados é inspecionar a sua _distribuição_. Neste capítulo, discutiremos algumas distribuições e outras técnicas de exploração de dados." ] }, { "cell_type": "code", "execution_count": 1, "id": "1db5c275-6d02-4f08-87f1-8085cb779e0b", "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import scipy as sp\n", "import seaborn as sb\n", "import matplotlib.pyplot as plt\n", "\n", "import warnings\n", "warnings.filterwarnings('ignore')" ] }, { "cell_type": "markdown", "id": "c2d4b080-a0f4-4ca1-9bc3-86b09c4e73f3", "metadata": {}, "source": [ "## Função massa de probabilidade \n", "\n", "A _função massa de probabilidade_ (FMP) associa uma probabilidade à ocorrência de um certo valor dentro de um _espaço de resultados_. Podemos entender a FMP como um histograma normalizado. Isto é, todas as frequências são divididas pelo número de amostras. \n", "\n", "Para estudar a FMP e os demais conceitos neste capítulo, usaremos um banco de dados que contém dados sobre adultos americanos, tais como idade, nível de escolaridade, ocupação, estado civil, entre outros. \n", "\n", "Primeiramente, carregamos o _dataset_. " ] }, { "cell_type": "code", "execution_count": 2, "id": "b860d4b6-b8cb-4ef7-95c1-2ee1a82835d2", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | age | \n", "type-employer | \n", "fnlwgt | \n", "education | \n", "education_num | \n", "marital | \n", "occupation | \n", "relationship | \n", "race | \n", "sex | \n", "capital_gain | \n", "capital_loss | \n", "hr_per_week | \n", "country | \n", "income | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "39 | \n", "State-gov | \n", "77516 | \n", "Bachelors | \n", "13 | \n", "Never-married | \n", "Adm-clerical | \n", "Not-in-family | \n", "White | \n", "Male | \n", "2174 | \n", "0 | \n", "40 | \n", "United-States | \n", "<=50K | \n", "
1 | \n", "50 | \n", "Self-emp-not-inc | \n", "83311 | \n", "Bachelors | \n", "13 | \n", "Married-civ-spouse | \n", "Exec-managerial | \n", "Husband | \n", "White | \n", "Male | \n", "0 | \n", "0 | \n", "13 | \n", "United-States | \n", "<=50K | \n", "
2 | \n", "38 | \n", "Private | \n", "215646 | \n", "HS-grad | \n", "9 | \n", "Divorced | \n", "Handlers-cleaners | \n", "Not-in-family | \n", "White | \n", "Male | \n", "0 | \n", "0 | \n", "40 | \n", "United-States | \n", "<=50K | \n", "
3 | \n", "53 | \n", "Private | \n", "234721 | \n", "11th | \n", "7 | \n", "Married-civ-spouse | \n", "Handlers-cleaners | \n", "Husband | \n", "Black | \n", "Male | \n", "0 | \n", "0 | \n", "40 | \n", "United-States | \n", "<=50K | \n", "
4 | \n", "28 | \n", "Private | \n", "338409 | \n", "Bachelors | \n", "13 | \n", "Married-civ-spouse | \n", "Prof-specialty | \n", "Wife | \n", "Black | \n", "Female | \n", "0 | \n", "0 | \n", "40 | \n", "Cuba | \n", "<=50K | \n", "