Cómo usar Pandas Dataframes en Python para analizar y manipular datos

Si desea analizar los datos en Python, querrá familiarizarse con los pandas, ya que hace que el estudio de datos sea mucho más claro. DataFrame es el formato de datos principal con el que interactuará. Aquí le mostramos cómo usarlo.

¿Qué son los pandas?

pandas es un módulo de Python que es popular en la ciencia de datos y el estudio de datos. Ofrece una forma de organizar datos en Dataframes y ofrece muchas operaciones que puede realizar en estos datos. Originalmente fue desarrollado por AQR Hacienda Management, pero fue de código descubierto a fines de la término de 2000.

Para instalar pandas usando pypi:

        pip install pandas

Es mejor trabajar con Pandas usando un cuaderno Jupyter u otra sesión interactiva de Python. Ipython es ideal para exploraciones casuales de datos en la terminal, pero Jupyter ahorrará un registro de sus cálculos, lo cual es útil cuando regresa a un conjunto de datos días o semanas luego y lucha por rememorar lo que hizo. He creado mi propio cuaderno de ejemplos de código en los que puede examinar mi página de Github. Ahí es de donde provienen las capturas de pantalla que verá.

¿Qué es un ámbito de datos?

Un ámbito de datos es la estructura de datos principal con la que trabaja en Pandas. Al igual que una hoja de cálculo o una cojín de datos relacional, organiza datos en filas y columnas. Las columnas se agrupan por un nombre de encabezado. El concepto es similar a los marcos de datos R, otro jerigonza de programación popular en estadísticas y ciencia de datos. Las columnas de DataFrame pueden contener datos de texto y numéricos, incluidos enteros y números de punto flotante. Las columnas igualmente pueden contener datos de series temporales.

Cómo crear un ámbito de datos

Suponiendo que ya tenga PANDAS instalados, puede crear un pequeño ámbito de datos a partir de otros principios.

Crearé columnas que representan una función seguido que podría estilarse para el estudio de regresión más delante. Primero, crearé el eje x, o la variable independiente, a partir de una matriz numpy:

        import numpy as np
x = np.linspace(-10,10)

A continuación, crearé la columna Y o la variable dependiente como una función seguido simple:

        y = 2*x + 5

Ahora importaré Pandas y crearé el DataFrame.

        import pandas as pd

Al igual que con Numpy, acortar el nombre de los pandas hará que sea más claro de escribir.

El método de ámbito de datos de Pandas toma un diccionario de los nombres de las columnas y las listas de los datos reales. Crearé un ámbito de datos llamado “DF” con columnas etiquetadas como “X” y “Y”. Los datos serán las matrices numpy que creé anteriormente.

        
df = pd.DataFrame({'x':x,'y':y})

Importar un ámbito de datos

Si acertadamente es posible crear marcos de datos desde cero, es más global importar los datos de otra fuente. Oportuno a que el contenido de DataFrame es tabular, las hojas de cálculo son una fuente popular. Los títulos superiores de la hoja de cálculo se convertirán en los nombres de la columna.

Para acertar en una hoja de cálculo de Excel, use el método Read_excel:

        
df = pd.read_excel('/path/to/spreadsheet.xls')

Al ser un ventilador de código descubierto, tiendo a pesar alrededor de LibreOffice Calc en zona de Excel, pero igualmente puedo importar otros tipos de archivos. El formato .csv es ampliamente utilizado, y puedo exportar mis datos en ese formato.

        
df = pd.read_csv('/path/to/data.csv')

Una característica útil es la capacidad de copiar desde el portapapeles. Esto es ideal para conjuntos de datos más pequeños para aparecer a cálculos más avanzados de los que puedo obtener en una hoja de cálculo:

        
df = pd.read_clipboard()

Examinar un ámbito de datos

Ahora que ha creado un ámbito de datos, el próximo paso es examinar los datos en él.

Una forma de hacerlo es obtener las primeras cinco filas del ámbito de datos con el método de vanguardia

        df.head()

Pandas DataFrame Head de "df" mostrando columnas x e y.

He usado el comando Head en Linux u otros sistemas similares a Unix, esto es similar. Si conoce el comando de trasero, hay un método similar en pandas que obtiene las últimas líneas de un ámbito de datos

        
df.tail()

Pandas Tail (Últimas cinco líneas) de DF DataFrame.

Puede usar métodos de corte de matriz para ver un subconjunto preciso de líneas. Para ver las líneas 1 a 3:

        df(1:3)

DataFrame-Array-SicedataFrane Array Slice.

Con el comando Head en Linux, puede ver un número exacto de líneas con un argumento algorítmico. Puedes hacer lo mismo en pandas. Para ver las primeras 10 líneas:

        df.head(10)

DataFrame Head que muestra las primeras 10 filas.

El método de trasero funciona de forma similar.

        df.tail(10)

Más interesante es examinar los conjuntos de datos existentes. Una forma popular de demostrar esto es con el conjunto de datos de pasajeros en el Titanic. Esta arreglado en Kaggle. Muchas otras bibliotecas estadísticas como Flota y Pingüino Le permitirá cargar en conjuntos de datos de ejemplo para que no tenga que descargarlos. Pandas Dataframes igualmente se utilizarán principalmente para avituallar datos en estas bibliotecas, como hacer un boceto o calcular una regresión seguido.

Con los datos descargados, tendrá que importarlos:

        titanic = pd.read_csv('data/Titanic-Dataset.csv')

Veamos la vanguardia de nuevo

        titanic.head()

Pandas Jefe de datos de datos de pasajeros Titanic.

Incluso podemos ver todas las columnas con el método de columnas

        titanic.columns

columnas de pandas del conjunto de datos de pasajeros Titanic.

Pandas ofrece muchos métodos para obtener información sobre el conjunto de datos. El método Describe ofrece algunas estadísticas descriptivas de todas las columnas numéricas en DataFrame.

        titanic.describe()

Estadísticas descriptivas del conjunto de datos Titanic.

Primero es la media o promedio. La próximo es la desviación normalizado, o qué tan cerca o apretados están espaciados los títulos cerca de de la media. Luego viene el valencia minúsculo, el cuartil inferior o el percentil 25, la mediana, o percentil 50, el cuartil superior o el percentil 75 y el valencia mayor. Estos títulos conforman el inverosímil estadístico de John Tukey, el “Extracto de cinco números”. Puede ver rápidamente cómo se distribuyen sus datos utilizando estos números.

Para alcanzar a una columna por sí misma, llame al nombre del cuadro de datos con el nombre de la columna en los soportes cuadrados (‘()’)

Por ejemplo, para ver la columna con el nombre de los pasajeros:

        titanic('Name')

Columna de nombres de pasajeros del conjunto de datos Titanic.

Oportuno a que la nómina es tan larga, se truncará de forma predeterminada. Para ver la nómina completa de nombres, use el método To_String.

        titanic('Name').to_string()

Incluso puedes apagar el truncamiento. Para apagarlo con columnas con una gran cantidad de filas:

        pd.set_option('display.max_rows', None)

Incluso puede usar otros métodos al decantarse por fila. Para ver las estadísticas descriptivas en una columna:

        titanic('Age').describe()

PANDAS Estadísticas descriptivas de la columna de edad del conjunto de datos de pasajeros Titanic.

Incluso puede alcanzar a títulos individuales

        titanic('Age').mean()
titanic('Age').median()

Media y mediana de los pasajeros titánicos del conjunto de datos.

Sumar y eliminar columnas

No solo puede examinar columnas, sino que igualmente puede juntar otras nuevas. Puede juntar una columna que lo complete con títulos, como lo haría con una matriz de Python, pero igualmente puede variar datos y agregarlos a nuevas columnas.

Volvamos al ámbito de datos innovador que creamos, DF. Podemos realizar operaciones en cada ambiente de una columna. Por ejemplo, para cuadrar la columna X:

        df('x')**2

Podemos crear una nueva columna con estos títulos:

        df('x2') = df('x')**2

Para eliminar una columna, puede usar la función de caída

        df.drop('x2',axis=1)

El argumento del eje le dice a Pandas que opere por columnas en zona de filas.

Realización de operaciones en columnas

Como se aludió anteriormente, puede realizar operaciones en columnas. Puede realizar operaciones matemáticas y estadísticas en ellas.

Podemos juntar nuestras columnas X e Y juntas:

        df('x') + df('y')

PANDAS DF DATAFRAME X COLUMNA DE LA COLUMNA Y COLUMNA.

Puede decantarse varias columnas con soportes dobles.

Para ver los nombres y edades de los pasajeros Titanic:

        titanic(('Name','Age'))

Nombre titánico y columnas de edad del Pandas DataFrame.

Los principios de la columna deben estar separados por un carácter de coma (,).

Incluso puede despabilarse Pandas Dataframes, similar a las búsquedas SQL. Para ver las filas de pasajeros que tenían más de 30 abriles cuando abordaron el revestimiento desafortunado, puede usar una selección booleana internamente de los soportes:

        titanic(titanic('Age') > 30)

Pandas Titanic DataFrame que muestra filas de pasajeros mayores de 30 años.

Esto es como la afirmación SQL:

        SELECT * FROM titanic WHERE Age > 30

Puede decantarse la columna usando .loc antiguamente de los soportes:

titanic.loc (titanic('Age') > 30)

columna de edad de Pandas de pasajeros titánicos mayores de 30 años.

Hagamos una trama de bar de donde se embarcaron los pasajeros Titanic. Podemos hacer nuestro propio subconjunto del ámbito de datos con los tres puntos de engaño, Southampton, Inglaterra; Cherbourg, Francia; y Queenstown, Irlanda (ahora Cobh).

        embarked = titanic('Embarked').value_counts()

Esto creará un nuevo ámbito de datos con el número de personas que se embarcaron en cada puerto. Pero tenemos un problema. Los encabezados de la columna son simplemente humanidades que representan el nombre del puerto. Vamos a reemplazarlos con los nombres completos del puerto. El método de cambio de nombre tomará un diccionario de los nombres antiguos y los nuevos.

        embarked = embarked.rename({'S':'Southhampton','C':'Cherbourg','Q':'Queenstown'})

Con las columnas renombradas, podemos hacer nuestro boceto de barras. Esto es claro con los pandas:

        embarked.plot(kind='bar')

Mostrando un gráfico de barras con puertos en los que los pasajeros se embarcaron en el Titanic.

Esto debería ayudarlo a comenzar a explorar conjuntos de datos PANDAS. Pandas es una de las razones por las que Python se ha vuelto tan popular entre los estadísticos, los científicos de datos y cualquier persona que necesite explorar datos.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Cómo usar Pandas Dataframes en Python para analizar y manipular datos

¿Qué son los pandas?

¿Qué es un ámbito de datos?

Cómo crear un ámbito de datos

Importar un ámbito de datos

Examinar un ámbito de datos

Sumar y eliminar columnas

Realización de operaciones en columnas

ztevenreal

Related Posts

Motorola posee el 50% del mercado plegable de EE. UU. antiguamente del emanación de Razr Fold, dice IDC

¿Qué tan perfectamente maneja los juegos la nueva MacBook Neo? Andrew Tsai probó 10 juegos para descubrirlo

You Missed

Supuesto feminicidio en España tras incendio que dejó tres muertas

Emprender en la reborde, el sustento de muchos y un combate para la ciudad

Irán condena resolución de la ONU porque está parcializada

Motorola posee el 50% del mercado plegable de EE. UU. antiguamente del emanación de Razr Fold, dice IDC

Expertos piden enfoque humanizado en la atención del inconveniente y el parto

Estados Unidos aportó el 51.5% de las divisas con destino a República Dominicana