本文为阿里云天池学习《SQL入门与实践》第二讲学习笔记,同时该讲内容基于《SQL基础教程》第二章(查询基础)及第三章(聚合与排序)。
学习重点:
SELECT
语句从表中选取数据。别名
。常数
或者表达式
。DISTINCT
可以删除重复的行。注释
。WHERE
语句从表中选取出符合查询
条件的数据SELECT语句 从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。
基本SELECT语句包含了SELECT和FROM两个子句(clause)。示例如下:
SELECT <列名>, FROM <表名>;
其中,SELECT子句中列举了希望从表中查询出的列的名称,而FROM子句则指定了选取出数据的表的名称。
-- 从Product表中输出3列 SELECT product_id, product_name, purchase_price FROM Product;
执行结果:
-- 查询全部的列 SELECT * FROM Product; /* 或者 SELECT product_id, product_name, product_type, sale_price, purchase_price, regist_date FROM Product; */
执行结果:
注意:星号
(*)代表全部列的意思。
关于随意使用换行符
SQL 语句使用换行符或者半角空格来分隔单词,在任何位置进行分隔都可以,
即使像下面这样通篇都是换行符也不会影响SELECT语句的执行。但是这样可能会
由于看不清楚而出错。原则上希望大家能够以子句为单位进行换行(子句过长时,
为方便起见可以换行)。SELECT * FROM Product ;另外,像下面这样插入空行(无任何字符的行)会造成执行错误,请特别注意。
SELECT * FROM Product;
WHERE语句 当不需要取出全部数据,而是选取出满足“商品种类为衣服”“销售单价在1000日元以上”等某些条件的数据时,使用WHERE语句。
SELECT 语句通过WHERE子句来指定查询数据的条件。在WHERE 子句中可以指定“某一列的值和这个字符串相等”或者“某一列的值大于这个数字”等条件。执行含有这些条件的SELECT语句,就可以查询出只符合该条件的记录了。
SELECT <列名>, …… FROM <表名> WHERE <条件表达式>;
比较下面两者输出结果的不同:
-- 用来选取product type列为衣服’的记录的SELECT语句 SELECT product_name, product_type FROM product WHERE product_type = '衣服';
执行结果:
-- 也可以选取出不是查询条件的列(条件列与输出列不同) SELECT product_name FROM product WHERE product_type = '衣服';
执行结果:
星号(*)
代表全部列的意思。双引号(")
括起来。DISTINCT
可以删除重复行。-- SQL语句可以使用AS关键字为列设定别名(用中文时需要双引号(“”))。 SELECT product_id AS id, product_name AS name, purchase_price AS "进货单价" FROM product;
执行结果:
-- 使用DISTINCT删除product_type列中重复的数据 SELECT DISTINCT product_type FROM product;
执行结果:
学习重点:
括号
可以提升运算的优先顺序
(优先进行运算)。结果也是NULL
。IS NULL
或者IS NOT NULL
运算符。SQL语句中可以使用的四则运算的主要运算符如下:
含义 | 运算符 |
---|---|
加法 | + |
减法 | - |
乘法 | * |
除法 | / |
-- 选取出sale_price列为500的记录 SELECT product_name, product_type FROM product WHERE sale_price = 500;
执行结果:
SQL常见比较运算符如下:
运算符 | 含义 |
---|---|
= | 和~相等 |
<> | 和~不相等 |
>= | 大于等于~ |
> | 大于~ |
<= | 小于等于~ |
< | 小于~ |
注意:不等号是<>
(表示小于或大于),应与其他语言的逻辑表示符区分开。
IS NULL
运算符。希望选取不是NULL的记录时,需要在条件表达式中使用IS NOT NULL
运算符。-- SQL语句中也可以使用运算表达式 SELECT product_name, sale_price, sale_price * 2 AS "sale_price x2" FROM product;
执行结果:
-- WHERE子句的条件表达式中也可以使用计算表达式 SELECT product_name, sale_price, purchase_price FROM product WHERE sale_price-purchase_price >= 500;
执行结果:
/* 对字符串使用不等号 首先创建chars并插入数据 选取出大于‘2’的SELECT语句*/ -- DDL :创建表 CREATE TABLE Chars (chr CHAR(3) NOT NULL, PRIMARY KEY (chr)); -- DML :插入数据 START TRANSACTION; INSERT INTO Chars VALUES ('1'); INSERT INTO Chars VALUES ('2'); INSERT INTO Chars VALUES ('3'); INSERT INTO Chars VALUES ('10'); INSERT INTO Chars VALUES ('11'); INSERT INTO Chars VALUES ('222'); COMMIT; -- 选取出大于'2'的数据的SELECT语句('2'为字符串) SELECT chr FROM Chars WHERE chr > '2';
执行结果:
注意:chr 列被定为字符串类型,并且在对字符串类型的数据进行大小比较时,使用的是和数字比较不同的规则。典型的规则就是按照字典顺序
进行比较,也就是像姓名那样,按照条目在字典中出现的顺序来进行排序。该规则最重要的一点就是,以相同字符开头的单词比不同字符开头的单词更相近。
-- 选取NULL的记录 SELECT product_name,purchase_price FROM Product WHERE purchase_price IS NULL;
执行结果:
-- 选取不为NULL的记录 SELECT product_name,purchase_price FROM Product WHERE purchase_price IS NOT NULL;
执行结果:
注意:查询表达式的列中含有NULL(不明)的情况,一般的筛选是不会执筛选出含有NULL的字段,(无论是用=NULL还是<>……),必须用IS NULL
或IS NOT NULL
来操作。
学习重点:
多个查询条件
进行组合。NOT
运算符可以生成“不是~”这样的查询条件。AND
运算符的查询条件才成立。OR
运算符的查询条件就可以成立。不确定(UNKNOWN)
。三值逻辑
。想要表示“不是……”时,除了前文的<>运算符外,还存在另外一个表示否定、使用范围更广的运算符:NOT。
NOT不能单独使用,其实用方式如下例(跟在WHERE后面):
-- 选取出销售单价小于1000日元的记录 SELECT product_name, product_type, sale_price FROM product WHERE sale_price < 1000;
-- 用NOT运算符表达 SELECT product_name, product_type, sale_price FROM product WHERE NOT sale_price >= 1000;
执行结果:
注:不使用 NOT 运算符也可以编写出效果相同的查询条件。不仅如此,不使用 NOT 运算符的查询条件更容易让人理解。使用 NOT 运算符时,我们不得不每次都在脑海中进行“大于等于 1000 日元以上这个条件的否定就是小于 1000 日元”这样的转换。
虽然如此,但是也不能完全否定 NOT 运算符的作用。在编写复杂的SQL 语句时,经常会看到 NOT 的身影。这里只是希望大家了解 NOT 运算符的书写方法和工作原理,同时提醒大家不要滥用该运算符。
当希望同时使用多个查询条件时,可以使用AND
或者OR
运算符。
AND 相当于“并且”,类似数学中的取交集;
OR 相当于“或者”,类似数学中的取并集。
相关逻辑概念相信大家在初中就有所接触,这里就不在赘述,有需要的朋友可以利用Venn图进行理解。
在多条件查询时需要注意逻辑符的优先级。如,想要选出“商品种类为办公用品”并且“登记日期是 2009 年 9 月 11 日或者 2009 年 9 月 20 日”的结果(“打孔器”)时,
-- 将查询条件原封不动地写入条件表达式,会得到错误结果 SELECT product_name, product_type, regist_date FROM product WHERE product_type = '办公用品' AND regist_date = '2009-09-11' OR regist_date = '2009-09-20';
错误的原因是是 AND 运算符优先于 OR 运算符,想要优先执行OR运算,可以使用括号:
-- 通过使用括号让OR运算符先于AND运算符执行 SELECT product_name, product_type, regist_date FROM product WHERE product_type = '办公用品' AND ( regist_date = '2009-09-11' OR regist_date = '2009-09-20');
执行结果:
当碰到条件较复杂的语句时(如上面那个查询语句),理解语句含义并不容易,这时可以采用真值表来梳理逻辑关系。
NULL的真值结果既不为真,也不为假,因为并不知道这样一个值。
这时真值是除真假之外的第三种值——不确定(UNKNOWN)
。一般的逻辑运算并不存在这第三种值。SQL 之外的语言也基本上只使用真和假这两种真值。与通常的逻辑运算被称为二值逻辑相对,只有 SQL 中的逻辑运算被称为三值逻辑
。
三值逻辑下的AND和OR真值表为:
编写一条SQL语句,从product(商品)表中选取出“登记日期(regist在2009年4月28日之后”的商品,查询结果要包含product_name和regist_date两列。
-- 答案 SELECT product_name, regist_date FROM product WHERE regist_date >= '2009-04-28';
请说出对product 表执行如下3条SELECT语句时的返回结果。
①
SELECT * FROM product WHERE purchase_price = NULL;
②
SELECT * FROM product WHERE purchase_price <> NULL;
③
SELECT * FROM product WHERE product_name > NULL;
答:① ~ ③中的 SQL 语句都无法选取出任何一条记录。因为包含NULL的运算,其结果也是NULL。而判断是否为NULL,需要使用IS NULL或者IS NOT NULL运算符。
请写出两条可以得到如下结果的SELECT语句,及从product表中取出“销售单价(sale price)比进货单价(purchase price)高出500日元以上”的商品。
product_name | sale_price | purchase_price -------------+------------+------------ T恤衫 | 1000 | 500 运动T恤 | 4000 | 2800 高压锅 | 6800 | 5000
-- 方法1 SELECT product_name, sale_price, purchase_price FROM product WHERE sale_price - purchase_price >= 500; -- 方法2 SELECT product_name, sale_price, purchase_price FROM product WHERE NOT sale_price - purchase_price < 500; -- 方法3 SELECT product_name, sale_price, purchase_price FROM Product WHERE sale_price >= purchase_price + 500; -- 方法4 SELECT product_name, sale_price, purchase_price FROM Product WHERE sale_price - 500 >= purchase_price;
请写出一条SELECT语句,从product表中选取出满足“销售单价打九折之后利润高于100日元的办公用品和厨房用具”条件的记录。查询结果要包括product_name列、product_type列以及销售单价打九折之后的利润(别名设定为profit)。
提示:销售单价打九折,可以通过saleprice列的值乘以0.9获得,利润可以通过该值减去purchase_price列的值获得。
-- 答案 SELECT product_name, product_type, 0.9 * sale_price - purchase_price AS profit FROM product WHERE 0.9 * sale_price - purchase_price >= 100 AND ( product_type = '办公用品' OR product_type = '厨房用品');
学习重点:
SQL中用于汇总的函数叫做聚合函数。以下五个是最常用的聚合函数:
COUNT
:计算表中的记录数(行数)SUM
:计算表中数值列中数据的合计值AVG
:计算表中数值列中数据的平均值MAX
:求出表中任意列中数据的最大值MIN
:求出表中任意列中数据的最小值例子:
-- 计算全部数据的行数(包含NULL) SELECT COUNT(*) FROM product;
执行结果:
-- 计算NULL以外数据的行数 SELECT COUNT(purchase_price) FROM product;
执行结果:
-- 计算销售单价和进货单价的合计值 SELECT SUM(sale_price), SUM(purchase_price) FROM product;
执行结果:
-- 计算销售单价和进货单价的平均值 SELECT AVG(sale_price), AVG(purchase_price) FROM product;
执行结果:
-- MAX和MIN也可用于非数值型数据 SELECT MAX(regist_date), MIN(regist_date) FROM product;
执行结果:
-- 计算去除重复数据后的数据行数 SELECT COUNT(DISTINCT product_type) FROM product;
执行结果:
-- 是否使用DISTINCT时的动作差异(SUM函数) SELECT SUM(sale_price), SUM(DISTINCT sale_price) FROM product;
执行结果:
COUNT(*)例外
,并不会排除NULL。所有
数据类型的列。SUM/AVG函数只适用于数值
类型的列。学习重点:
GROUP BY
子句可以像切蛋糕那样将表分割。通过使用聚合函数和GROUP BY子句,可以根据“商品种类”或者“登记日期”等将表分割后再进行汇总。只能
写在SELECT子句之中不能
使用SELECT子句中列的别名
无序
的不能
使用聚合函数
之前使用聚合函数都是会整个表的数据进行处理,当你想将进行分组汇总时(即:将现有的数据按照某列来汇总统计),GROUP BY可以帮助你:
SELECT <列名1>,<列名2>, <列名3>, …… FROM <表名> GROUP BY <列名1>, <列名2>, <列名3>, ……;
看一看是否使用GROUP BY语句的差异:
-- 按照商品种类统计数据行数 SELECT product_type, COUNT(*) FROM product GROUP BY product_type;
执行结果:
-- 不含GROUP BY SELECT product_type, COUNT(*) FROM product
执行结果:
按照商品种类对表进行切分:
这样,GROUP BY 子句就像切蛋糕那样将表进行了分组。在 GROUP BY 子句中指定的列称为聚合键或者分组列。
将进货单价(purchase_price)作为聚合键举例:
SELECT purchase_price, COUNT(*) FROM product GROUP BY purchase_price;
执行结果:
此时会将NULL作为一组特殊数据进行处理。
GROUP BY的子句书写顺序有严格要求,不按要求会导致SQL无法正常执行,目前出现过的子句书写顺序为:
1.SELECT → 2. FROM → 3. WHERE → 4. GROUP BY
其中前三项用于筛选数据,GROUP BY对筛选出的数据进行处理。
SELECT purchase_price, COUNT(*) FROM product WHERE product_type = '衣服' GROUP BY purchase_price;
执行结果:
在使用聚合函数及GROUP BY子句时,经常出现的错误有:
在聚合函数的SELECT子句中写了聚合健以外的列。使用COUNT等聚合函数时,SELECT子句中如果出现列名,只能是GROUP BY子句中指定的列名(也就是聚合键),否则会出现与聚合键相对应的、同时存在多个值的列出现的情况,这是不被允许的。
在GROUP BY子句中使用列的别名 SELECT子句中可以通过AS来指定别名,但在GROUP BY中不能使用别名
。因为在DBMS中 ,SELECT子句在GROUP BY子句后执行。
GROUP BY 和 WHERE 并用时 SELECT 语句的执行顺序:
1.FROM → 2. WHERE → 3. GROUP BY → 4. SELECT
注:
DISTINCT子句和GROUP BY子句都可以对数据行进行去重,且都会把 NULL 作为一个独立的结果返回,对多列使用时也会得到完全相同的结果,执行速度也基本上差不多 。选择时应该回到 SELECT 语句的原始需求。
选择的标准其实非常简单,在“想要删除选择结果中的重复记录”时使用 DISTINCT,在“想要计算汇总结果”时使用 GROUP BY。
不使用COUNT等聚合函数,而只使用GROUP BY子句的SELECT语句,会让人觉得非常奇怪,使人产生“到底为什么要对表进行分组呢?这样做有必要吗?”等疑问。SQL 语句的语法与英语十分相似,理解起来非常容易,如果大家浪费了这一优势,编写出一些难以理解的 SQL 语句,那就太可惜了。
学习重点:
HAVING
子句。聚合函数
可以在SELECT子句、 HAVING子句和ORDER BY子句中使用。之后
。数据行的条件
, HAVING子句用来指定分组的条件
。将表使用GROUP BY分组后,怎样才能只取出其中两组?
这里WHERE不可行,因为,WHERE子句只能指定记录(行)的条件
,而不能用来指定组的条件
(例如,“数据行数为 2 行”或者“平均值为 500”等)。
正解是可以在GROUP BY后使用HAVING子句,HAVING的用法类似WHERE。
HAVING子句用于对分组进行过滤,可以使用数字、聚合函数和GROUP BY中指定的列名(聚合键)。
-- 数字 SELECT product_type, COUNT(*) FROM product GROUP BY product_type HAVING COUNT(*) = 2; -- 错误形式(因为product_name不包含在GROUP BY聚合键中) SELECT product_type, COUNT(*) FROM product GROUP BY product_type HAVING product_name = '圆珠笔';
执行结果:
使用HAVING子句时SELECT语句的书写顺序:
SELECT → FROM → WHERE → GROUP BY → HAVING
ORDER BY
子句对查询结果进行排序。ASC
可以进行升序排序,使用DESC
关键字可以进行降序排序。多个排序键
。可以
使用SELECT子句中定义的列的别名
。可以
使用SELECT子句中未出现的列或者聚合函数
。不能
使用列的编号
。QL中的执行结果是随机排列的,当需要按照特定顺序排序时,可已使用ORDER BY子句。
SELECT <列名1>, <列名2>, <列名3>, …… FROM <表名> ORDER BY <排序基准列1>, <排序基准列2>, ……
默认为升序排列,降序排列为DESC
-- 降序排列 SELECT product_id, product_name, sale_price, purchase_price FROM product ORDER BY sale_price DESC;
执行结果:
-- 多个排序键 SELECT product_id, product_name, sale_price, purchase_price FROM product ORDER BY sale_price, product_id;
执行结果:
-- 当用于排序的列名中含有NULL时,NULL会在开头或末尾进行汇总。 SELECT product_id, product_name, sale_price, purchase_price FROM product ORDER BY purchase_price;
执行结果:
前文讲GROUP BY中提到,GROUP BY 子句中不能使用SELECT 子句中定义的别名,但是在 ORDER BY 子句中却可以使用别名。为什么在GROUP BY中不可以而在ORDER BY中可以呢?
这是因为SQL在使用 HAVING 子句时 SELECT 语句的执行顺序为:
1.FROM → 2.WHERE → 3.GROUP BY → 4.HAVING → 5.SELECT → 6.ORDER BY
其中SELECT的执行顺序在 GROUP BY 子句之后,ORDER BY 子句之前。也就是说,当在ORDER BY中使用别名时,已经知道了SELECT设置的别名存在,但是在GROUP BY中使用别名时还不知道别名的存在,所以在ORDER BY中可以使用别名,但是在GROUP BY中不能使用别名。
请指出下述SELECT语句中所有的语法错误。
SELECT product_id, SUM(product_name) --本SELECT语句中存在错误。 FROM product GROUP BY product_type WHERE regist_date > '2009-09-01';
答:
请编写一条SELECT语句,求出销售单价(sale_price列)合计值大于进货单价(purchase_price列)合计值1.5倍的商品种类。执行结果如下所示。
-- 答案 SELECT product_type, SUM(sale_price), SUM(purchase_price) FROM product GROUP BY product_type HAVING SUM(sale_price) > 1.5 * SUM(purchase_price)
此前我们曾经使用SELECT语句选取出了product(商品)表中的全部记录。当时我们使用了ORDERBY子句来指定排列顺序,但现在已经无法记起当时如何指定的了。请根据下列执行结果,思考ORDERBY子句的内容。
-- 答案 SELECT * FROM product ORDER BY regist_date DESC, sale_price;