Encontrar duplicados
By admin on Mar 3, 2009 | In Aprendiz | 4 feedbacks »
Un requisito muy común cuando se trabaja con datos, es encontrar entradas duplicadas. El lenguaje SQL es muy potente en hacerlo, pero mucha gente prefiere utilizar Excel para encontrar duplicados. Mi opinión es que esta es buena para los pequeños conjuntos de datos (menos de 10.000 filas). Puedes utilizar el formato condicional (por ejemplo, con este: =CONTAR.SI(a:A,a2) > 1)), o
puedes utilizar el Filtro/avanzado menú de opciones para filtrar y copiar a otro lugar (hay que activar la casilla para copiar sólo registros únicos). Más modernas versiones de Excel tienen ahora un comando en el menú de Datos: "quitar duplicados"
En MySQL (y, de hecho, otras versiones de SQL) la forma más común de encontrar duplicados de las entradas de campo es el uso de la cláusula GROUP BY. Por ejemplo, para devolver las entradas para el campo "job" de la tabla emp que tienen más de 1 fila/empleado registrado contra ese "job" en particular:
Code:
select job, count(*) | |
-> from emp | |
-> group by job | |
-> having count(*) > 1; |
Si querías devolver registros registró más de 3 veces en la tabla solo necesitas modificar la cláusula HAVING.
Code:
select job, count(*) | |
-> from emp | |
-> group by job | |
-> having count(*) > 3; |
Por cierto, si sólo querías devolver distinta campo(s) en una tabla, puedes utilizar GROUP BY sin realizar suma. Ahora esto es todo muy bien, pero suponiendo que tienes la obligación de devolver todos los campos en un registro se produce cuando el identificador/campo es un duplicado. Podemos hacer esto por un subconsulta de IN:
Code:
mysql> select a.* from emp a | |
-> where a.job in | |
-> (select b.job | |
-> from emp b | |
-> group by b.job having count(*) >1); |
Todo muy bien hasta ahora, pero vamos a introducir una tabla segunda. Supongamos que queremos seleccionar los registros que se producen dos veces en las dos tablas. Podemos hacerlo utilizando el operador UNION para devolver todos los registros de ambas tablas. (recuerde usar UNION ALL, si no los duplicados sería reprimida). Entonces pongamos esto en un "inline view" y, a continuación, utilizar la cláusula GROUP BY para seleccionar sólo duplicados
Code:
select empno, ename, job | |
from | |
(select empno, ename, job | |
from emp | |
UNION ALL | |
select empno, ename, job | |
from emp_temp) as empt | |
group by empno, ename, job having count(*) > 1; |
No estoy seguro de cómo se enfoque en Excel! Aunque es bastante fácil en Mysql!
Diviértete con Mysql!
=====================================
Olivier [Visitor]
Hola!
Excelente artículo la verdad. Y felicidades por el blog.
Estoy interesado en el primer ejemplo. Sabrías cómo eliminar los duplicados encontrados? Es decir, eliminar todos los duplicados encontrados excepto uno. Si se han encontrado 3 filas con un valor igual y 5 con otro valor igual pues eliminar un total de 6 respectivas filas y dejar las 2 originales.
¿Seria muy complicado en mysql? Imagino que a mucha gente lo que le interesa con los duplicados es eliminarlos :-)
Un saludo.
--
Hola Olivier! Gracias por tu pregunta. Me costo un poco en pensar sobre esto.
Es possible eliminar los duplicados bastante facil, con condicion de que haya Primary Key.
Suponer que tenemos estas filas (en la table dup_take)
+-----+-------+----+
| sno | cno | id |
+-----+-------+----+
| 1 | CS112 | 1 |
| 1 | CS113 | 2 |
| 1 | CS114 | 3 |
| 2 | CS114 | 12 |
| 2 | CS112 | 4 |
| 3 | CS112 | 5 |
| 3 | CS114 | 6 |
| 4 | CS113 | 8 |
| 4 | CS112 | 7 |
| 5 | CS113 | 9 |
| 6 | CS113 | 10 |
| 6 | CS114 | 11 |
+-----+-------+----+
Queremos quedar con una fila de cada sno. Bueno, primero hagamos un "temporary table":
create temporary table to_delete (sno tinyint, cno varchar(5), min_id smallint);
Luego podemos insertar estos:
insert into to_delete (sno, min_id)
select sno, MIN(id) from dup_take group by sno having count(*) > 1;
Entonces podemos usar la palabra clave EXISTS (funciona como una prueba de existencia). Es decir, solo eliminar los registros donde "EXISTS" mas de una fila y donde el id no es el original:
delete from dup_take
where exists (
select * from to_delete
where to_delete.sno = dup_take.sno
and to_delete.min_id <> dup_take.id);
Por fin tenemos:
+-----+-------+----+
| sno | cno | id |
+-----+-------+----+
| 1 | CS112 | 1 |
| 2 | CS112 | 4 |
| 3 | CS112 | 5 |
| 4 | CS112 | 7 |
| 5 | CS113 | 9 |
| 6 | CS113 | 10 |
+-----+-------+----+
Saludos
Mark
4 comments
Excelente artículo la verdad. Y felicidades por el blog.
Estoy interesado en el primer ejemplo. Sabrías cómo eliminar los duplicados encontrados? Es decir, eliminar todos los duplicados encontrados excepto uno. Si se han encontrado 3 filas con un valor igual y 5 con otro valor igual pues eliminar un total de 6 respectivas filas y dejar las 2 originales.
¿Seria muy complicado en mysql? Imagino que a mucha gente lo que le interesa con los duplicados es eliminarlos :-)
Un saludo.
Saludos
Mark
This post has 5 feedbacks awaiting moderation...
Leave a comment
| « Hacer las consultas más eficiente 1) La localización de las consultas que se ejecutan lentamente | Potente manipulación de la cadena. » |