SQL仅选择列上具有最大值的行

我有一张文件表（此处为简化版）：

id	rev	content
1	1	...
2	1	...
1	2	...
1	3	...

如何为每个id选择一行，并且仅选择最大的rev？对于上面的数据，结果应该包含两行：[1，3，…]和[2，1，…]。我使用的是MySQL。

目前，我在while循环中使用检查来检测和重写结果集中的旧版本。但这是实现结果的唯一方法吗？没有SQL解决方案吗？

乍一看。。。

您只需要一个带有MAX聚合函数的GROUP BY子句：

SELECT id, MAX(rev)
FROM YourTable
GROUP BY id

从来没有这么简单，是吗？

我刚刚注意到你也需要内容栏。

这是SQL中一个非常常见的问题：在每个组标识符的列中查找具有某个最大值的行的整个数据。在我的职业生涯中我听过很多。事实上，这是我在当前工作的技术面试中回答的问题之一。

事实上，StackOverflow社区创建了一个标签来处理这样的问题是非常常见的：每个组中最优秀的一个。

基本上，有两种方法可以解决这个问题：

使用简单组标识符连接，组子查询中的最大值

在这种方法中，首先在子查询中找到组标识符，即组中的最大值（上面已经解决）。然后，将表连接到子查询，组标识符和组中的最大值相等：

SELECT a.id, a.rev, a.contents
FROM YourTable a
INNER JOIN (
    SELECT id, MAX(rev) rev
    FROM YourTable
    GROUP BY id
) b ON a.id = b.id AND a.rev = b.rev

左侧使用自身连接，调整连接条件和过滤器

在这种方法中，您可以将表与自身连接起来。组标识符中包含相等项。然后，两个聪明的动作：

第二个连接条件的左侧值小于右侧值执行步骤1时，实际具有最大值的行的右侧将为NULL（这是一个LEFT JOIN，记得吗？）。然后，我们过滤合并结果，只显示右侧为NULL的行。

所以你最终会得到：

SELECT a.*
FROM YourTable a
LEFT OUTER JOIN YourTable b
    ON a.id = b.id AND a.rev < b.rev
WHERE b.id IS NULL;

结论

这两种方法带来的结果完全相同。

如果组标识符的组中有两行具有最大值，则两种方法中的结果都是这两行。

这两种方法都与SQLANSI兼容，因此，无论其“味道”如何，都可以与您喜爱的RDBMS一起使用。

这两种方法都是性能友好的，但是您的里程可能会有所不同（RDBMS、DB结构、索引等）。确保你选择对你最有意义的那一个。

2011-10-12 19:43:53

我的偏好是使用尽可能少的代码。。。

您可以使用IN试试看：

SELECT * 
FROM t1 WHERE (id,rev) IN 
( SELECT id, MAX(rev)
  FROM t1
  GROUP BY id
)

在我看来，这不那么复杂。。。易于阅读和维护。

2011-10-12 19:47:41

像这样吗？

SELECT yourtable.id, rev, content
FROM yourtable
INNER JOIN (
    SELECT id, max(rev) as maxrev
    FROM yourtable
    GROUP BY id
) AS child ON (yourtable.id = child.id) AND (yourtable.rev = maxrev)

2011-10-12 19:48:45

我不能保证它的性能，但这里有一个受Microsoft Excel限制启发的技巧。它有一些好的特点

好东西

即使有平局，它也应该强制返回一个“最大记录”（有时有用）它不需要联接

接近，接近

它有点难看，需要您了解rev列的有效值范围。假设我们知道rev列是一个介于0.00和999之间的数字，包括小数，但小数点右侧只有两位数字（例如，34.17是一个有效值）。

这件事的要点是，通过将主比较字段与所需数据串接/打包，可以创建一个单独的合成列。通过这种方式，您可以强制SQL的MAX（）聚合函数返回所有数据（因为它已打包到一列中）。然后您必须解压缩数据。

下面是上面用SQL编写的示例的外观

SELECT id, 
       CAST(SUBSTRING(max(packed_col) FROM 2 FOR 6) AS float) as max_rev,
       SUBSTRING(max(packed_col) FROM 11) AS content_for_max_rev 
FROM  (SELECT id, 
       CAST(1000 + rev + .001 as CHAR) || '---' || CAST(content AS char) AS packed_col
       FROM yourtable
      ) 
GROUP BY id

包装开始时，将rev列强制为已知字符长度的数字，而不考虑rev的值，例如

3.2变为1003.20157变为1057.001923.88变为1923.881

如果你做得对，两个数字的字符串比较应该产生与两个数字数字比较相同的“最大值”，并且很容易使用substring函数转换回原始数字（这在任何地方都可以使用一种或另一种形式）。

2013-06-30 06:02:30

这个怎么样：

SELECT all_fields.*  
FROM (SELECT id, MAX(rev) FROM yourtable GROUP BY id) AS max_recs  
LEFT OUTER JOIN yourtable AS all_fields 
ON max_recs.id = all_fields.id

2013-07-14 16:09:41

另一种解决方案是使用相关子查询：

select yt.id, yt.rev, yt.contents
    from YourTable yt
    where rev = 
        (select max(rev) from YourTable st where yt.id=st.id)

在（id，rev）上设置索引几乎可以将子查询呈现为一个简单的查找。。。

以下是与@AdrianCarneiro的答案（subquery，leftjoin）中的解决方案的比较，基于MySQL的测量结果，InnoDB表的记录约为100万条，组大小为：1-3。

虽然对于全表扫描，子查询/左连接/相关定时彼此之间的关系为6/8/9，但当涉及到直接查找或批处理（（1，2，3）中的id）时，子查询比其他查询慢得多（由于重新运行子查询）。然而，我无法在速度上区分左连接和相关解决方案。

最后一点，当leftjoin在组中创建n*（n+1）/2个连接时，它的性能会受到组大小的严重影响。。。

2014-01-23 14:16:11

此解决方案仅从YourTable中进行一次选择，因此速度更快。根据sqlfiddle.com上的测试，它只适用于MySQL和SQLite（用于SQLite删除DESC）。也许可以调整它以适用于我不熟悉的其他语言。

SELECT *
FROM ( SELECT *
       FROM ( SELECT 1 as id, 1 as rev, 'content1' as content
              UNION
              SELECT 2, 1, 'content2'
              UNION
              SELECT 1, 2, 'content3'
              UNION
              SELECT 1, 3, 'content4'
            ) as YourTable
       ORDER BY id, rev DESC
   ) as YourTable
GROUP BY id

2014-01-29 07:49:11

不是mySQL，但对于其他发现此问题并使用SQL的人，另一种解决最大的每组问题的方法是在MS SQL中使用交叉应用

WITH DocIds AS (SELECT DISTINCT id FROM docs)

SELECT d2.id, d2.rev, d2.content
FROM DocIds d1
CROSS APPLY (
  SELECT Top 1 * FROM docs d
  WHERE d.id = d1.id
  ORDER BY rev DESC
) d2

下面是SqlFiddle中的一个示例

2014-05-30 13:47:53

由于这是关于这个问题最流行的问题，我将在这里重新发布另一个答案：

看起来有更简单的方法（但仅在MySQL中）：

select *
from (select * from mytable order by id, rev desc ) x
group by id

请感谢用户Bohemian在这个问题上的回答，因为它为这个问题提供了如此简洁而优雅的答案。

编辑：虽然这个解决方案对很多人都有效，但从长远来看它可能并不稳定，因为MySQL不能保证GROUP BY语句会为不在GROUP BY列表中的列返回有意义的值。因此，使用此解决方案的风险自负！

2014-07-03 14:33:34

我喜欢使用基于NOT EXIST的解决方案来解决这个问题：

SELECT 
  id, 
  rev
  -- you can select other columns here
FROM YourTable t
WHERE NOT EXISTS (
   SELECT * FROM YourTable t WHERE t.id = id AND rev > t.rev
)

这将选择组中具有最大值的所有记录，并允许您选择其他列。

2014-09-05 21:58:28

注意：在MySQL 8+天中，我可能不会再推荐这种方法了。好几年没用了。

第三种解决方案是MySQL特有的，看起来像这样：

SELECT id, MAX(rev) AS rev
 , 0+SUBSTRING_INDEX(GROUP_CONCAT(numeric_content ORDER BY rev DESC), ',', 1) AS numeric_content
FROM t1
GROUP BY id

是的，它看起来很糟糕（转换为字符串和返回等），但根据我的经验，它通常比其他解决方案更快。也许这只是我的用例，但我已经在具有数百万条记录和许多唯一ID的表上使用了它。也许是因为MySQL在优化其他解决方案方面非常糟糕（至少在我提出这个解决方案的5.0天）。

一件重要的事情是GROUP_CONCAT对于它可以建立的字符串有一个最大长度。您可能希望通过设置group_concat_max_len变量来提高此限制。请记住，如果您有大量的行，这将是缩放的限制。

无论如何，如果您的内容字段已经是文本，则上述操作不会直接起作用。在这种情况下，您可能需要使用不同的分隔符，例如\0。您还将更快地达到group_concat_max_len限制。

2014-10-10 11:57:00

这是一个很好的方法

使用以下代码：

with temp as  ( 
select count(field1) as summ , field1
from table_name
group by field1 )
select * from temp where summ = (select max(summ) from temp)

2015-01-07 11:36:08

我会用这个：

select t.*
from test as t
join
   (select max(rev) as rev
    from test
    group by id) as o
on o.rev = t.rev

子查询SELECT可能不太有效，但在JOIN子句中似乎是可用的。我不是优化查询的专家，但我在MySQL、PostgreSQL和FireBird上都做过尝试，而且效果非常好。

您可以在多个联接中使用此模式，也可以使用WHERE子句。这是我的工作示例（用表格“firmy”解决与您相同的问题）：

select *
from platnosci as p
join firmy as f
on p.id_rel_firmy = f.id_rel
join (select max(id_obj) as id_obj
      from firmy
      group by id_rel) as o
on o.id_obj = f.id_obj and p.od > '2014-03-01'

这是在有十几张唱片的桌子上被要求的，在不太强的机器上只需要不到0.01秒的时间。

我不会使用IN子句（如上所述）。IN用于常量的短列表，而不是构建在子查询上的查询过滤器。这是因为in中的子查询是针对每个扫描的记录执行的，这可能会使查询花费很长时间。

2015-03-04 18:12:10

我喜欢通过按某一列对记录进行排名来做到这一点。在这种情况下，按id对rev值进行分组。rev值越高的排名越低。所以，最高转速的排名为1。

select id, rev, content
from
 (select
    @rowNum := if(@prevValue = id, @rowNum+1, 1) as row_num,
    id, rev, content,
    @prevValue := id
  from
   (select id, rev, content from YOURTABLE order by id asc, rev desc) TEMP,
   (select @rowNum := 1 from DUAL) X,
   (select @prevValue := -1 from DUAL) Y) TEMP
where row_num = 1;

不确定引入变量是否会使整个过程变慢。但至少我没有两次查询YOURTABLE。

2015-07-16 18:52:31

如果select语句中有多个字段，并且希望通过优化代码获得所有这些字段的最新值：

select * from
(select * from table_name
order by id,rev desc) temp
group by id

2015-09-04 05:33:22

按相反顺序对rev字段进行排序，然后按id进行分组，每个分组的第一行是rev值最高的一行。

SELECT * FROM (SELECT * FROM table1 ORDER BY id, rev DESC) X GROUP BY X.id;

测试时间：http://sqlfiddle.com/具有以下数据

CREATE TABLE table1
    (`id` int, `rev` int, `content` varchar(11));

INSERT INTO table1
    (`id`, `rev`, `content`)
VALUES
    (1, 1, 'One-One'),
    (1, 2, 'One-Two'),
    (2, 1, 'Two-One'),
    (2, 2, 'Two-Two'),
    (3, 2, 'Three-Two'),
    (3, 1, 'Three-One'),
    (3, 3, 'Three-Three')
;

这在MySql 5.5和5.6中给出了以下结果

id  rev content
1   2   One-Two
2   2   Two-Two
3   3   Three-Two

2015-12-11 03:14:18

我惊讶地发现，没有答案提供SQL窗口函数解决方案：

SELECT a.id, a.rev, a.contents
  FROM (SELECT id, rev, contents,
               ROW_NUMBER() OVER (PARTITION BY id ORDER BY rev DESC) ranked_order
          FROM YourTable) a
 WHERE a.ranked_order = 1

在SQL标准ANSI/ISO标准SQL:2003中添加了窗口（或窗口）功能，后来又用ANSI/ISO标准SQL：2008进行了扩展。有更多类型的秩函数可用于处理平局问题：rank、DENSE_rank、PERSENT_rank。

2016-08-09 15:29:17

唯一标识符？对唯一标识符！

开发MySQL数据库的最佳方法之一是使用每个id AUTOINCREMENT（SourceMySQL.com）。这有很多优点，这里无法介绍。这个问题的问题是它的示例有重复的id。这忽视了唯一标识符的这些巨大优势，同时也让熟悉这一点的人感到困惑。

最清洁的解决方案

数据库Fiddle

较新版本的MySQL默认情况下启用了ONLY_FUL_GROUP_BY，这里的许多解决方案在测试中都会失败。

即使如此，我们也可以简单地选择DISTINCT someuniquefield、MAX（要选择的任何其他字段）、（*somethirdfield）等，而不必担心会了解结果或查询的工作方式：

SELECT DISTINCT t1.id, MAX(t1.rev), MAX(t2.content)
FROM Table1 AS t1
JOIN Table1 AS t2 ON t2.id = t1.id AND t2.rev = (
    SELECT MAX(rev) FROM Table1 t3 WHERE t3.id = t1.id
)
GROUP BY t1.id;

SELECT DISTINCT Table1.id，max（Table1.rev），max（Table2.content）：返回DISTINCT somefield，max（）某个其他字段，最后一个max（）是多余的，因为我知道它只是一行，但查询需要它。FROM雇员：在上搜索了表。JOIN Table1 AS Table2 ON Table2.rev=Table1.rev：在第一个表上加入第二个表，因为我们需要得到max（Table1.rev）的注释。GROUP BY Table1.id：强制将每个员工的排名靠前的薪资行作为返回结果。

请注意，由于OP的问题中“内容”是“…”，因此无法测试这是否有效。因此，我将其更改为“..a”，“..b”，因此，我们现在可以看到结果是正确的：

id  max(Table1.rev) max(Table2.content)
1   3   ..d
2   1   ..b

为什么它是干净的？DISTINCT（）、MAX（）等都很好地利用了MySQL索引。这会更快。或者，如果您有索引，并将其与查看所有行的查询进行比较，则速度会快得多。

原始解决方案

在ONLY_FUL_GROUP_BY被禁用的情况下，我们仍然可以使用GROUP BY，但是我们只在Salary上使用它，而不在id上使用它：

SELECT *
FROM
    (SELECT *
    FROM Employee
    ORDER BY Salary DESC)
AS employeesub
GROUP BY employeesub.Salary;

SELECT*：返回所有字段。FROM雇员：在上搜索了表。（SELECT*…）子查询：返回所有人员，按薪资排序。GROUP BY employeesub。Salary：强制将每个员工的顶部排序的Salary行作为返回结果。

唯一行解决方案

请注意关系数据库的定义：“表中的每一行都有自己的唯一键。”这意味着，在问题的示例中，id必须是唯一的，在这种情况下，我们可以这样做：

SELECT *
FROM Employee
WHERE Employee.id = 12345
ORDER BY Employee.Salary DESC
LIMIT 1

希望这是一个解决问题的解决方案，帮助每个人更好地了解数据库中发生的事情。

2016-09-14 00:28:36

这是另一个解决方案，希望它能帮助某人

Select a.id , a.rev, a.content from Table1 a
inner join 
(SELECT id, max(rev) rev FROM Table1 GROUP BY id) x on x.id =a.id and x.rev =a.rev

2017-06-20 10:10:35

这些答案对我来说都不管用。

这就是对我有用的。

with score as (select max(score_up) from history)
select history.* from score, history where history.score_up = score.max

2017-07-13 18:19:20

SELECT *
FROM Employee
where Employee.Salary in (select max(salary) from Employee group by Employe_id)
ORDER BY Employee.Salary

2017-07-30 18:12:46

下面是另一个解决方案，用于仅检索具有该字段最大值的字段的记录。这适用于我工作的平台SQL400。在本例中，字段FIELD5中具有最大值的记录将由以下SQL语句检索。

SELECT A.KEYFIELD1, A.KEYFIELD2, A.FIELD3, A.FIELD4, A.FIELD5
  FROM MYFILE A
 WHERE RRN(A) IN
   (SELECT RRN(B) 
      FROM MYFILE B
     WHERE B.KEYFIELD1 = A.KEYFIELD1 AND B.KEYFIELD2 = A.KEYFIELD2
     ORDER BY B.FIELD5 DESC
     FETCH FIRST ROW ONLY)

2017-10-16 23:48:32

我用下面的方法解决了我自己的问题。我首先创建了一个临时表，并插入了每个唯一id的最大rev值。

CREATE TABLE #temp1
(
    id varchar(20)
    , rev int
)
INSERT INTO #temp1
SELECT a.id, MAX(a.rev) as rev
FROM 
    (
        SELECT id, content, SUM(rev) as rev
        FROM YourTable
        GROUP BY id, content
    ) as a 
GROUP BY a.id
ORDER BY a.id

然后，我将这些最大值（#temp1）加入到所有可能的id/内容组合中。通过这样做，我很自然地过滤掉了非最大id/内容组合，并且只剩下每个组合的最大rev值。

SELECT a.id, a.rev, content
FROM #temp1 as a
LEFT JOIN
    (
        SELECT id, content, SUM(rev) as rev
        FROM YourTable
        GROUP BY id, content
    ) as b on a.id = b.id and a.rev = b.rev
GROUP BY a.id, a.rev, b.content
ORDER BY a.id

2018-01-05 10:51:51

另一种方法是在OVERPARTITION子句中使用MAX（）分析函数

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,MAX(rev) OVER (PARTITION BY id) as max_rev
      FROM YourTable
    ) t
  WHERE t.rev = t.max_rev

本文中已经记录的另一个ROW_NUMBER（）OVERPARTITION解决方案是

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,ROW_NUMBER() OVER (PARTITION BY id ORDER BY rev DESC) rank
      FROM YourTable
    ) t
  WHERE t.rank = 1

此2 SELECT在Oracle 10g上运行良好。

MAX（）解决方案的运行速度肯定比ROW_NUMBER（）方案快，因为MAX（）复杂性为O（n），而ROW_NUMBER（）复杂性最低为O（n.log（n）），其中n表示表中的记录数！

2018-02-20 09:07:22

当您将rev和id组合为MAX（）的一个maxRevId值，然后将其拆分为原始值时，可以在不进行联接的情况下进行选择：

SELECT maxRevId & ((1 << 32) - 1) as id, maxRevId >> 32 AS rev
FROM (SELECT MAX(((rev << 32) | id)) AS maxRevId
      FROM YourTable
      GROUP BY id) x;

当存在复杂联接而不是单个表时，这一速度特别快。使用传统方法，复杂连接将进行两次。

当rev和id为INT UNSIGNED（32位）并且组合值适合BIGINT UNSIGNED时（64位），上述组合对于位函数很简单。当id和rev大于32位值或由多个列组成时，需要将该值合并为二进制值，例如，为MAX（）添加适当的填充。

2018-09-17 09:08:22

我想，你想要这个吗？

select * from docs where (id, rev) IN (select id, max(rev) as rev from docs group by id order by id)

SQL Fiddle：在此处检查

2018-12-29 11:00:18

解释

这不是纯SQL。这将使用SQLAlchemy ORM。

我来这里寻求SQLAlchemy帮助，所以我将使用python/SQLAlchemi版本复制Adrian Carneiro的答案，特别是外部连接部分。

此查询回答了以下问题：

“你能把这组记录（基于相同id）中版本号最高的记录还给我吗”。

这允许我复制记录，更新它，增加它的版本号，并以一种可以显示随时间变化的方式复制旧版本。

Code

MyTableAlias = aliased(MyTable)
newest_records = appdb.session.query(MyTable).select_from(join(
    MyTable, 
    MyTableAlias, 
    onclause=and_(
        MyTable.id == MyTableAlias.id,
        MyTable.version_int < MyTableAlias.version_int
    ),
    isouter=True
    )
).filter(
    MyTableAlias.id  == None,
).all()

在PostgreSQL数据库上测试。

2019-02-22 15:18:26

SQL仅选择列上具有最大值的行

推荐文章

最新文章

标签