prucommercialre.com


Cómo utilizar la función merge () con conjuntos de datos en R

En R utiliza la función merge () para combinar tramas de datos. Esta poderosa función trata de identificar las columnas o filas que son comunes entre las dos tramas de datos diferentes.

Cómo utilizar la combinación de encontrar la intersección de datos

La forma más simple de merge () busca la intersección entre dos conjuntos de datos diferentes. En otras palabras, para crear un marco de datos que consiste en aquellos estados que son fríos, así como grande, utilice la versión predeterminada de merge ():

> Merge (cold.states, large.states)
Nombre de Frost Área
1 Alaska 152 566 432
2 Colorado 166 103 766
3 Montana 155 145 587
4 Nevada 188 109 889

Si está familiarizado con un lenguaje de base de datos como SQL, usted puede haber adivinado que merge () es muy similar a una base de datos unirse. Esto es, de hecho, el caso y los diferentes argumentos para fusionar () le permiten realizar naturales se une, así como a la izquierda, derecha y combinaciones externas completas.

La función de fusión () toma un gran número de argumentos. Estos argumentos pueden parecer bastante intimidante hasta que te das cuenta de que forman un menor número de argumentos relacionados:

  • x: una trama de datos.
  • y: una trama de datos.
  • por, by.x, by.y: Los nombres de las columnas que son comunes a ambos xe y. El valor predeterminado es utilizar las columnas con los nombres comunes entre las dos tramas de datos.
  • todo, all.x, all.y: valores lógicos que especifican el tipo de combinación. El valor por defecto es todo = false (que significa que sólo los registros coincidentes se devuelven).

El último grupo de argumentos - todo, all.x y all.y - merece una explicación. Estos argumentos determinan el tipo de combinación que va a pasar.

¿Cómo entender los diferentes tipos de fusión

La función de fusión () permite cuatro modos de combinar los datos:

  • Natural combinación: Para mantener sólo las filas que coinciden de las tramas de datos, especifique el argumento all = FALSO.
  • Externa completa: Para mantener todas las filas de ambas tramas de datos, especifique todos = TRUE.
  • Externa izquierda: Para incluir todas las filas de su trama de datos x y sólo aquellos de y que coinciden, especifique all.x = TRUE.
  • Unión externa derecha: Para incluir todas las filas de su trama de datos y, y sólo los de x ese partido, especifique all.y = TRUE.

    Cómo utilizar la función merge () con conjuntos de datos en R

¿Cómo encontrar la unión (unión externa completa)

Volviendo a los ejemplos de los estados estadounidenses, realizar una combinación completa de los estados fríos y grandes, el uso de combinación y especificar todos = true:

> Merge (cold.states, large.states, todos = VERDADERO)
Nombre de Frost Área
1 Alaska 152 566 432
2 Arizona NA 113417
3 California NA 156361
....
13 de Texas NA 262134
14 Vermont 168 NA
15 Wyoming 173 NA

Ambas tramas de datos tienen un nombre de variable, por lo que R coincide con los casos basados ​​en los nombres de los estados. La variable de Frost viene de los cold.states marco de datos, y el Área de la variable proviene de las large.states marco de datos.

Tenga en cuenta que esta lleva a cabo la fusión completa y llena las columnas con valores de NA donde no hay datos coincidentes.