首页
/ 正文

mysql distinct（长文解析）

更新时间: 2025-03-16 20:13:32

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

前言

在数据库查询中，如何快速过滤重复数据并提取唯一值，是开发者常遇到的挑战。MySQL DISTINCT 正是解决这一问题的核心工具。无论是统计用户数量、分析订单分布，还是优化数据展示，DISTINCT 都能通过简洁的语法实现高效操作。本文将从基础概念、语法细节、性能优化到实战案例，系统性地解析这一功能，帮助读者掌握其核心逻辑与实际应用。

DISTINCT 的基本原理与核心语法

什么是 DISTINCT？

DISTINCT 是 SQL 中用于去除查询结果中重复行的关键字。想象你收到大量电子邮件，其中包含许多重复的促销信息——DISTINCT 就如同一个智能筛选器，自动保留唯一内容，过滤掉冗余数据。

核心语法：

SELECT DISTINCT 列名 FROM 表名;

例如，假设有一个用户表 users，包含重复的邮箱地址，我们可以这样查询唯一邮箱：

SELECT DISTINCT email FROM users;

单列去重的适用场景

统计唯一值数量：如统计注册用户的实际人数（排除重复注册的账号）。
数据清洗：在分析前消除重复数据，避免误导性结论。

案例演示：
假设有表 orders，其中 customer_id 列存在重复值：

-- 查询所有唯一客户ID  
SELECT DISTINCT customer_id FROM orders;

此查询将返回每个客户的唯一标识，而非重复的订单记录。

进阶用法：多列去重与组合查询

多列去重的逻辑扩展

当需要同时去重多个字段时，DISTINCT 会将 所有指定列的组合 作为判断条件。例如，若查询 city 和 country 的组合，只有当两列的值完全一致时才会视为重复。

语法示例：

SELECT DISTINCT column1, column2 FROM table_name;

案例：
假设有一个 products 表，包含 category 和 price 列：

SELECT DISTINCT category, price FROM products;

此查询将返回每个价格在不同分类中的唯一组合，例如：
| category | price |
|----------|-------|
| 电子 | 500 |
| 服饰 | 100 |

结合聚合函数的高级用法

DISTINCT 可与 COUNT() 等聚合函数结合，计算唯一值的数量。

语法示例：

SELECT COUNT(DISTINCT column) FROM table;

案例：
统计电商平台中不同城市的订单数量：

SELECT COUNT(DISTINCT city) AS unique_cities FROM orders;

此查询将返回订单覆盖的城市总数，而非订单总数。

性能优化与注意事项

索引对 DISTINCT 的影响

DISTINCT 的性能取决于数据量和索引设计。若查询字段存在索引（如主键或唯一索引），数据库会快速定位唯一值，类似 整理书架时通过分类标签快速查找书籍。反之，若字段未被索引，数据库需遍历全表并逐行比较，导致效率下降。

优化建议：

对高频查询的去重字段添加索引：

CREATE INDEX idx_email ON users(email);

避免对大数据量表执行无索引的DISTINCT操作。

避免常见误区

多列去重的逻辑陷阱：
若查询 SELECT DISTINCT a, b FROM table，只有当 a和b的组合 完全相同时才会去重。例如，若某行的a=1，b=2，另一行a=1，b=3，则不会被视为重复。
DISTINCT 与 GROUP BY 的区别：
GROUP BY 可对分组后的数据进行聚合计算（如求和、计数），而 DISTINCT 仅用于筛选唯一行。例如：
```
-- GROUP BY 实现类似功能  
SELECT category, price FROM products GROUP BY category, price;  
```

实战案例：电商订单分析

场景描述

假设我们有一个电商平台的 orders 表，包含以下字段：
| 字段名 | 类型 | 说明 |
|--------------|----------|--------------------|
| order_id | INT | 订单ID |
| customer_id | INT | 客户ID |
| product_name | VARCHAR | 商品名称 |
| city | VARCHAR | 下单城市 |
| amount | DECIMAL | 订单金额 |

案例1：统计活跃客户数量

需求：统计过去一年内有下单的唯一客户数。

SELECT COUNT(DISTINCT customer_id)  
FROM orders  
WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31';

案例2：分析热门商品分布

需求：找出每个城市的热销商品（按唯一购买次数排序）。

SELECT city, product_name,  
       COUNT(DISTINCT order_id) AS purchase_count  
FROM orders  
GROUP BY city, product_name  
ORDER BY purchase_count DESC;

此查询通过 DISTINCT order_id 确保每个订单仅计算一次，避免重复购买干扰结果。

结论

MySQL DISTINCT 是开发者工具箱中不可或缺的利器，其核心价值在于 高效筛选唯一数据。通过本文的讲解，我们掌握了从单列到多列的去重逻辑、与聚合函数的结合使用、性能优化策略，以及实际业务场景中的应用案例。

对于初学者，建议通过简单表结构逐步练习；中级开发者则可深入研究索引优化与复杂查询的组合技巧。记住，DISTINCT 的真正威力不仅在于语法本身，更在于理解其背后的逻辑与业务场景的适配性。

掌握这些知识后，你将能更自信地处理数据冗余问题，提升数据库查询的效率与准确性。

mysql distinct（长文解析）

前言

DISTINCT 的基本原理与核心语法

什么是 DISTINCT？

单列去重的适用场景

进阶用法：多列去重与组合查询

多列去重的逻辑扩展

结合聚合函数的高级用法

性能优化与注意事项

索引对 DISTINCT 的影响

避免常见误区

实战案例：电商订单分析

场景描述

案例1：统计活跃客户数量

案例2：分析热门商品分布

结论

最新发布

Pycharm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Clion 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Webstorm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

PhpStorm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

RubyMine 2026.2 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.2 最新激活码，破解版安装教程（亲测至2099年）

DataGrip 2026.2.1 最新激活码,破解版安装教程（亲测至2099年~）

IDEA 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Clion 2026.2 最新激活码，破解版安装教程（亲测至2099年）