Si desea analizar los datos en Python, querrá familiarizarse con los pandas, ya que hace que el estudio de datos sea mucho más claro. DataFrame es el formato de datos principal con el que interactuará. Aquí le mostramos cómo usarlo.
¿Qué son los pandas?
pandas es un módulo de Python que es popular en la ciencia de datos y el estudio de datos. Ofrece una forma de organizar datos en Dataframes y ofrece muchas operaciones que puede realizar en estos datos. Originalmente fue desarrollado por AQR Hacienda Management, pero fue de código descubierto a fines de la término de 2000.
Para instalar pandas usando pypi:
pip install pandas
Es mejor trabajar con Pandas usando un cuaderno Jupyter u otra sesión interactiva de Python. Ipython es ideal para exploraciones casuales de datos en la terminal, pero Jupyter ahorrará un registro de sus cálculos, lo cual es útil cuando regresa a un conjunto de datos días o semanas luego y lucha por rememorar lo que hizo. He creado mi propio cuaderno de ejemplos de código en los que puede examinar mi página de Github. Ahí es de donde provienen las capturas de pantalla que verá.
¿Qué es un ámbito de datos?
Un ámbito de datos es la estructura de datos principal con la que trabaja en Pandas. Al igual que una hoja de cálculo o una cojín de datos relacional, organiza datos en filas y columnas. Las columnas se agrupan por un nombre de encabezado. El concepto es similar a los marcos de datos R, otro jerigonza de programación popular en estadísticas y ciencia de datos. Las columnas de DataFrame pueden contener datos de texto y numéricos, incluidos enteros y números de punto flotante. Las columnas igualmente pueden contener datos de series temporales.
Cómo crear un ámbito de datos
Suponiendo que ya tenga PANDAS instalados, puede crear un pequeño ámbito de datos a partir de otros principios.
Crearé columnas que representan una función seguido que podría estilarse para el estudio de regresión más delante. Primero, crearé el eje x, o la variable independiente, a partir de una matriz numpy:
import numpy as np
x = np.linspace(-10,10)
A continuación, crearé la columna Y o la variable dependiente como una función seguido simple:
y = 2*x + 5
Ahora importaré Pandas y crearé el DataFrame.
import pandas as pd
Al igual que con Numpy, acortar el nombre de los pandas hará que sea más claro de escribir.
El método de ámbito de datos de Pandas toma un diccionario de los nombres de las columnas y las listas de los datos reales. Crearé un ámbito de datos llamado “DF” con columnas etiquetadas como “X” y “Y”. Los datos serán las matrices numpy que creé anteriormente.
df = pd.DataFrame({'x':x,'y':y})
Importar un ámbito de datos
Si acertadamente es posible crear marcos de datos desde cero, es más global importar los datos de otra fuente. Oportuno a que el contenido de DataFrame es tabular, las hojas de cálculo son una fuente popular. Los títulos superiores de la hoja de cálculo se convertirán en los nombres de la columna.
Para acertar en una hoja de cálculo de Excel, use el método Read_excel:
df = pd.read_excel('/path/to/spreadsheet.xls')
Al ser un ventilador de código descubierto, tiendo a pesar alrededor de LibreOffice Calc en zona de Excel, pero igualmente puedo importar otros tipos de archivos. El formato .csv es ampliamente utilizado, y puedo exportar mis datos en ese formato.
df = pd.read_csv('/path/to/data.csv')
Una característica útil es la capacidad de copiar desde el portapapeles. Esto es ideal para conjuntos de datos más pequeños para aparecer a cálculos más avanzados de los que puedo obtener en una hoja de cálculo:
df = pd.read_clipboard()
Examinar un ámbito de datos
Ahora que ha creado un ámbito de datos, el próximo paso es examinar los datos en él.
Una forma de hacerlo es obtener las primeras cinco filas del ámbito de datos con el método de vanguardia
df.head()
He usado el comando Head en Linux u otros sistemas similares a Unix, esto es similar. Si conoce el comando de trasero, hay un método similar en pandas que obtiene las últimas líneas de un ámbito de datos
df.tail()
Puede usar métodos de corte de matriz para ver un subconjunto preciso de líneas. Para ver las líneas 1 a 3:
df(1:3)
Con el comando Head en Linux, puede ver un número exacto de líneas con un argumento algorítmico. Puedes hacer lo mismo en pandas. Para ver las primeras 10 líneas:
df.head(10)
El método de trasero funciona de forma similar.
df.tail(10)
Más interesante es examinar los conjuntos de datos existentes. Una forma popular de demostrar esto es con el conjunto de datos de pasajeros en el Titanic. Esta arreglado en Kaggle. Muchas otras bibliotecas estadísticas como Flota y Pingüino Le permitirá cargar en conjuntos de datos de ejemplo para que no tenga que descargarlos. Pandas Dataframes igualmente se utilizarán principalmente para avituallar datos en estas bibliotecas, como hacer un boceto o calcular una regresión seguido.
Con los datos descargados, tendrá que importarlos:
titanic = pd.read_csv('data/Titanic-Dataset.csv')
Veamos la vanguardia de nuevo
titanic.head()
Incluso podemos ver todas las columnas con el método de columnas
titanic.columns
Pandas ofrece muchos métodos para obtener información sobre el conjunto de datos. El método Describe ofrece algunas estadísticas descriptivas de todas las columnas numéricas en DataFrame.
titanic.describe()
Primero es la media o promedio. La próximo es la desviación normalizado, o qué tan cerca o apretados están espaciados los títulos cerca de de la media. Luego viene el valencia minúsculo, el cuartil inferior o el percentil 25, la mediana, o percentil 50, el cuartil superior o el percentil 75 y el valencia mayor. Estos títulos conforman el inverosímil estadístico de John Tukey, el “Extracto de cinco números”. Puede ver rápidamente cómo se distribuyen sus datos utilizando estos números.
Para alcanzar a una columna por sí misma, llame al nombre del cuadro de datos con el nombre de la columna en los soportes cuadrados (‘()’)
Por ejemplo, para ver la columna con el nombre de los pasajeros:
titanic('Name')
Oportuno a que la nómina es tan larga, se truncará de forma predeterminada. Para ver la nómina completa de nombres, use el método To_String.
titanic('Name').to_string()
Incluso puedes apagar el truncamiento. Para apagarlo con columnas con una gran cantidad de filas:
pd.set_option('display.max_rows', None)
Incluso puede usar otros métodos al decantarse por fila. Para ver las estadísticas descriptivas en una columna:
titanic('Age').describe()
Incluso puede alcanzar a títulos individuales
titanic('Age').mean()
titanic('Age').median()
Sumar y eliminar columnas
No solo puede examinar columnas, sino que igualmente puede juntar otras nuevas. Puede juntar una columna que lo complete con títulos, como lo haría con una matriz de Python, pero igualmente puede variar datos y agregarlos a nuevas columnas.
Volvamos al ámbito de datos innovador que creamos, DF. Podemos realizar operaciones en cada ambiente de una columna. Por ejemplo, para cuadrar la columna X:
df('x')**2
Podemos crear una nueva columna con estos títulos:
df('x2') = df('x')**2
Para eliminar una columna, puede usar la función de caída
df.drop('x2',axis=1)
El argumento del eje le dice a Pandas que opere por columnas en zona de filas.
Realización de operaciones en columnas
Como se aludió anteriormente, puede realizar operaciones en columnas. Puede realizar operaciones matemáticas y estadísticas en ellas.
Podemos juntar nuestras columnas X e Y juntas:
df('x') + df('y')
Puede decantarse varias columnas con soportes dobles.
Para ver los nombres y edades de los pasajeros Titanic:
titanic(('Name','Age'))
Los principios de la columna deben estar separados por un carácter de coma (,).
Incluso puede despabilarse Pandas Dataframes, similar a las búsquedas SQL. Para ver las filas de pasajeros que tenían más de 30 abriles cuando abordaron el revestimiento desafortunado, puede usar una selección booleana internamente de los soportes:
titanic(titanic('Age') > 30)
Esto es como la afirmación SQL:
SELECT * FROM titanic WHERE Age > 30
Puede decantarse la columna usando .loc antiguamente de los soportes:
titanic.loc (titanic('Age') > 30)
Hagamos una trama de bar de donde se embarcaron los pasajeros Titanic. Podemos hacer nuestro propio subconjunto del ámbito de datos con los tres puntos de engaño, Southampton, Inglaterra; Cherbourg, Francia; y Queenstown, Irlanda (ahora Cobh).
embarked = titanic('Embarked').value_counts()
Esto creará un nuevo ámbito de datos con el número de personas que se embarcaron en cada puerto. Pero tenemos un problema. Los encabezados de la columna son simplemente humanidades que representan el nombre del puerto. Vamos a reemplazarlos con los nombres completos del puerto. El método de cambio de nombre tomará un diccionario de los nombres antiguos y los nuevos.
embarked = embarked.rename({'S':'Southhampton','C':'Cherbourg','Q':'Queenstown'})
Con las columnas renombradas, podemos hacer nuestro boceto de barras. Esto es claro con los pandas:
embarked.plot(kind='bar')
Esto debería ayudarlo a comenzar a explorar conjuntos de datos PANDAS. Pandas es una de las razones por las que Python se ha vuelto tan popular entre los estadísticos, los científicos de datos y cualquier persona que necesite explorar datos.






