問題:「SALARY > 10000」となる社員が所属している部署を表示せよ
今回は、セミジョイン(セミ結合)について考えてみたい。
セミジョインは通常のジョイントと異なり、2つのクエリー間に親子(主従)関係があるのが特徴である。つまり、メインクエリーがあってそれに従属するサブクエリーから成るのがセミジョインで、ジョインにおいて2つのクエリー(テーブル、ビュー)が(実行順はあるが)対等関係にあるのとは明確に異なる。
Oracleでは、IN述語、EXISTS述語を使用するものをセミジョイン(セミ結合)、NOT IN述語、NOT EXISTS述語を使用するものをアンチジョイン(アンチ結合)と呼んでいる。(リンクは12cR1 SQLチューニングガイドの該当箇所)
使用するテーブル
今回はHRサンプルスキーマのDEPARTMENTS(部署)表とEMPLOYEES(社員)表を使ったクエリーを考えてみる。
SQL> desc DEPARTMENTS
名前 NULL? 型
----------------------------------------- -------- ----------------------------
DEPARTMENT_ID NOT NULL NUMBER(4)
DEPARTMENT_NAME NOT NULL VARCHAR2(30)
MANAGER_ID NUMBER(6)
LOCATION_ID NUMBER(4)
SQL> desc EMPLOYEES
名前 NULL? 型
----------------------------------------- -------- ----------------------------
EMPLOYEE_ID NOT NULL NUMBER(6)
FIRST_NAME VARCHAR2(20)
LAST_NAME NOT NULL VARCHAR2(25)
EMAIL NOT NULL VARCHAR2(25)
PHONE_NUMBER VARCHAR2(20)
HIRE_DATE NOT NULL DATE
JOB_ID NOT NULL VARCHAR2(10)
SALARY NUMBER(8,2)
COMMISSION_PCT NUMBER(2,2)
MANAGER_ID NUMBER(6)
DEPARTMENT_ID NUMBER(4)
実行環境は
SQL> select BANNER from v$version;
BANNER
--------------------------------------------------------------------------------
Oracle Database 12c Enterprise Edition Release 12.2.0.1.0 - 64bit Production
PL/SQL Release 12.2.0.1.0 - Production
CORE 12.2.0.1.0 Production
TNS for Linux: Version 12.2.0.1.0 - Production
NLSRTL Version 12.2.0.1.0 - Production
である。
1. IN述語を使ったSQL
1番目はIN述語を使ったSQLである。
DEPARTMENTS表にアクセスするメインクエリーに対して、EMPLOYEES表にアクセスするサブクエリーをIN述語で連結する。CBOが正しく判断できるようにサブクエリーはカッコで囲む。
このSQLを記述通りに解釈すると、最初にサブクエリーが実行され条件を満たすDEPARTMENT_IDの集合が作られ(このサブクエリーのみの実行では重複が発生することに注意)メインクエリーで使用するINリストが作成される。メインクエリーはこのINリストを使用してDEPARTMENTS表から必要な情報を取得する。
select
DEPARTMENT_ID
,DEPARTMENT_NAME
from
DEPARTMENTS
where
DEPARTMENT_ID in (
select
DEPARTMENT_ID
from
EMPLOYEES
where
SALARY > 10000
)
;
2. EXISTS述語を使ったSQL
次はEXISTS述語を使ったSQLである。
このSQLは(文字通りの解釈では)前項と逆でメインクエリーが先に実行される。次にメインクエリーの結果セットの各行に対してサブクエリー側で条件に合致するかを判定する。
条件に合致すれば(真:TRUE)結果セットに残り、合致しなければ(偽:FALSE)結果セットから除外される。つまり、サブクエリーはメインクエリーのフィルタとして機能する。
メインクエリーとサブクエリーの関係は「D.DEPARTMENT_ID = E.DEPARTMENT_ID」の条件で絞り込む必要がある。万一この条件を書き忘れると、EMPLOYEES表の中にDEPARTMENTS表に存在するDEPARTMENT_IDが1つでも存在すれば、EXISTS述語が常に真(TRUE)となりDEPARTMENTS表の全行が返ることになるので、肝心の「SALARY > 10000」という条件が効かない結果となってしまう。
select
DEPARTMENT_ID
,DEPARTMENT_NAME
from
DEPARTMENTS D
where
exists (
select
*
from
EMPLOYEES E
where
D.DEPARTMENT_ID = E.DEPARTMENT_ID
and SALARY > 10000
)
;
3. 内部結合を使ったSQL
セミジョインのSQLは次のような内部結合を使ったSQLに書き換えることができる。(書き換えることができるというのは違うSQLでも同じ結果を返す、という意味である。)
注意点としては、DISTINCT句を忘れてはいけないことである。(DISTINCTが必要な理由は最後に示す。)
select distinct
D.DEPARTMENT_ID
,D.DEPARTMENT_NAME
from
DEPARTMENTS D
inner join EMPLOYEES E
on D.DEPARTMENT_ID = E.DEPARTMENT_ID
where
E.SALARY > 10000
;
どの書き方が優れているのか?
このように同じ結果を得る(であろう)3つのSQLを紹介したのだが、実際はどの書き方がより優れているのだろうか?
違いがあるのであれば、開発者はどんな点に注意した方がよいのだろうか?
性能的な優劣を比較するのであれば、大量データを使用して実行時間を比較するのが王道であるのだが、サンプル表を使用しての簡単な検証になるので、今回は実行計画を確認しながら実行する。
1. IN述語を使ったSQL
SQL> select
2 DEPARTMENT_ID
3 ,DEPARTMENT_NAME
4 from
5 DEPARTMENTS
6 where
7 DEPARTMENT_ID in (
8 select
9 DEPARTMENT_ID
10 from
11 EMPLOYEES
12 where
13 SALARY > 10000
14 )
15 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
90 Executive
100 Finance
30 Purchasing
80 Sales
20 Marketing
110 Accounting
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2317224448
----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN SEMI | | 11 | 253 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 3 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("DEPARTMENT_ID"="DEPARTMENT_ID")
3 - filter("SALARY">10000)
統計
----------------------------------------------------------
0 recursive calls
4 db block gets
16 consistent gets
0 physical reads
0 redo size
778 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
0 sorts (memory)
0 sorts (disk)
6 rows processed
今回の問題に対する解答は、上記6つの部署となることがわかる。
細かい考察は後にしてEXISTS述語を使ったSQLも同様に見てみよう。
2. EXISTS述語を使ったSQL
SQL> select
2 DEPARTMENT_ID
3 ,DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 where
7 exists (
8 select
9 *
10 from
11 EMPLOYEES E
12 where
13 D.DEPARTMENT_ID = E.DEPARTMENT_ID
14 and SALARY > 10000
15 )
16 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
90 Executive
100 Finance
30 Purchasing
80 Sales
20 Marketing
110 Accounting
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2317224448
----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN SEMI | | 11 | 253 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 3 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
3 - filter("SALARY">10000)
統計
----------------------------------------------------------
0 recursive calls
4 db block gets
16 consistent gets
0 physical reads
0 redo size
778 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
0 sorts (memory)
0 sorts (disk)
6 rows processed
2つの実行計画を比較するには「Plan hash value」を見ればよいのだが、何と同じ「2317224448」となっていることがわかる。
つまり、セミジョインはどちらの書き方をしても同じ実行計画が選択されるという興味深い結果が明らかになった。
この実行計画はHASH JOINなので、メインクエリーのDEPARTMENTS表がビルド表となり、サブクエリーのEMPLOYEES表がプローブ表となっている。
Id=1のオペレーションは「HASH JOIN SEMI」であるが、対応する述語情報(Predicate Information)は
1 - access("DEPARTMENT_ID"="DEPARTMENT_ID")
となっている。
1.の書き方では、このような結合条件を記述していないにもかかわらず、CBOは裏でちゃんとこのような結合条件を使ったセミジョインを考慮してくれている。
従って、素直に解釈するとOracle12cでは「1. IN述語を使ったSQL」でも内部的には「2. EXISTS述語を使ったSQL」にリライトされているように見える。
ただし、マニュアル(SQLチューニングガイド)の記述を見ると、セミジョイン、アンチジョインは内部的には結合(ジョイン)タイプとして処理されると説明されている。(「…セミ結合とアンチ結合は、それらを実行するSQL構文が副問合せであっても、結合タイプとして考慮されます。これらは、副問合せ構文を結合形式で解決できるようにフラット化するため、オプティマイザによって使用される内部アルゴリズムです。…」)
3. 内部結合を使ったSQL
ここまで来ると、残りの内部結合を使ったSQLも気になる。ひょっとして同じ実行計画となるのであろうか?
SQL> select distinct
2 D.DEPARTMENT_ID
3 ,D.DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 inner join EMPLOYEES E
7 on D.DEPARTMENT_ID = E.DEPARTMENT_ID
8 where
9 E.SALARY > 10000
10 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
100 Finance
90 Executive
30 Purchasing
110 Accounting
80 Sales
20 Marketing
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 1983137394
-----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
-----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 7 (15)| 00:00:01 |
| 1 | HASH UNIQUE | | 11 | 253 | 7 (15)| 00:00:01 |
|* 2 | HASH JOIN SEMI | | 11 | 253 | 6 (0)| 00:00:01 |
| 3 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 4 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
-----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
2 - access("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
4 - filter("E"."SALARY">10000)
統計
----------------------------------------------------------
302 recursive calls
4 db block gets
324 consistent gets
0 physical reads
0 redo size
778 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
16 sorts (memory)
0 sorts (disk)
6 rows processed
今度は違う実行計画となった。(Plan hash value: 1983137394)
このクエリーはセミジョインでないにもかかわらず、Id=2で「HASH JOIN SEMI」となっているのが興味深い。
さらに、この実行計画ではId=1の「HASH UNIQUE」が実行されている。
つまり、セミジョインに比べてDISTINCT付きジョインは、オペレーションが1つ多くなっている分性能的に不利なのではないかと思われる。(あくまでも実行計画を比較した上での見解)
DISTINCT句を外してみると
参考までに、上のクエリーでDISTINCT句を外して実行してみる。
(重複排除すべき行を網掛け表示にしてある。)
SQL> select
2 D.DEPARTMENT_ID
3 ,D.DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 inner join EMPLOYEES E
7 on D.DEPARTMENT_ID = E.DEPARTMENT_ID
8 where
9 E.SALARY > 10000
10 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
90 Executive
90 Executive
90 Executive
100 Finance
30 Purchasing
80 Sales
80 Sales
80 Sales
80 Sales
80 Sales
80 Sales
80 Sales
80 Sales
20 Marketing
110 Accounting
15行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2052257371
----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 68 | 1564 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN | | 68 | 1564 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 3 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
3 - filter("E"."SALARY">10000)
統計
----------------------------------------------------------
4 recursive calls
4 db block gets
19 consistent gets
0 physical reads
0 redo size
860 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
0 sorts (memory)
0 sorts (disk)
15 rows processed
DISTINCT句を付けないと「HASH JOIN」となることがわかる。
セミジョインの結合方式を考える
上記セミジョインの結合方式は、「HASH JOIN SEMI」というオペレーション名からハッシュ型セミジョインであることがわかるが、以下のようにサブクエリー側にヒント句を使用することで結合方式を変更することができる。
ネステッドループ型セミジョイン
SQL> select
2 DEPARTMENT_ID
3 ,DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 where
7 exists(
8 select
9 /*+ NL_SJ */
10 *
11 from
12 EMPLOYEES E
13 where
14 D.DEPARTMENT_ID = E.DEPARTMENT_ID
15 and SALARY > 10000
16 )
17 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
20 Marketing
30 Purchasing
80 Sales
90 Executive
100 Finance
110 Accounting
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2332702268
----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 41 (0)| 00:00:01 |
| 1 | NESTED LOOPS SEMI | | 11 | 253 | 41 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 3 | TABLE ACCESS FULL| EMPLOYEES | 28 | 196 | 1 (0)| 00:00:01 |
----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
3 - filter("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID" AND "SALARY">10000)
統計
----------------------------------------------------------
0 recursive calls
56 db block gets
220 consistent gets
0 physical reads
0 redo size
778 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
0 sorts (memory)
0 sorts (disk)
6 rows processed
以前のバージョンでは、セミジョインのデフォルトの結合方式であったが、この検証においては3つの中でも最もコストが高くなった。
細かいが、結果がDEPARTMENT_IDの昇順となっている点がハッシュ型と異なっていることがわかる。
ソートマージ型セミジョイン
SQL> select
2 DEPARTMENT_ID
3 ,DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 where
7 exists(
8 select
9 /*+ MERGE_SJ */
10 *
11 from
12 EMPLOYEES E
13 where
14 D.DEPARTMENT_ID = E.DEPARTMENT_ID
15 and SALARY > 10000
16 )
17 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
20 Marketing
30 Purchasing
80 Sales
90 Executive
100 Finance
110 Accounting
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2249117780
-----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
-----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 8 (25)| 00:00:01 |
| 1 | MERGE JOIN SEMI | | 11 | 253 | 8 (25)| 00:00:01 |
| 2 | SORT JOIN | | 27 | 432 | 4 (25)| 00:00:01 |
| 3 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 4 | SORT UNIQUE | | 68 | 476 | 4 (25)| 00:00:01 |
|* 5 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
-----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
4 - access("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
filter("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
5 - filter("SALARY">10000)
統計
----------------------------------------------------------
0 recursive calls
4 db block gets
15 consistent gets
0 physical reads
0 redo size
778 bytes sent via SQL*Net to client
608 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
2 sorts (memory)
0 sorts (disk)
6 rows processed
ソートマージ型は、オペレーション数が一番多いにもかかわらず、ネステッドループ型よりもコストが低い。
結果はネステッドループ型と同様にDEPARTMENT_IDの昇順になっている。
セミジョインはサブクエリーによるメインクエリーの存在チェック(フィルタリング)とも言えるが、単純な有無を判定するのであれば並び替えをせずにハッシュテーブル上で比較ができるハッシュ型が有利なのではないかと考える。
筆者の経験では、DBリンク越しのセミジョイン(サブクエリー側のテーブルがリモート表)のあるSQLがネステッドループ型セミジョインとなっていたので、HASH_SJヒントでハッシュ型セミジョインにしたところ、2時間経っても終わらないクエリーがわずか2分強で終了するまでに改善したことがある。
ちなみにHASH_SJヒントは以下のように使用する。
SQL> select
2 DEPARTMENT_ID
3 ,DEPARTMENT_NAME
4 from
5 DEPARTMENTS D
6 where
7 exists(
8 select
9 /*+ HASH_SJ */
10 *
11 from
12 EMPLOYEES E
13 where
14 D.DEPARTMENT_ID = E.DEPARTMENT_ID
15 and SALARY > 10000
16 )
17 ;
DEPARTMENT_ID DEPARTMENT_NAME
------------- --------------------
90 Executive
100 Finance
30 Purchasing
80 Sales
20 Marketing
110 Accounting
6行が選択されました。
実行計画
----------------------------------------------------------
Plan hash value: 2317224448
----------------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
----------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 11 | 253 | 6 (0)| 00:00:01 |
|* 1 | HASH JOIN SEMI | | 11 | 253 | 6 (0)| 00:00:01 |
| 2 | TABLE ACCESS FULL| DEPARTMENTS | 27 | 432 | 3 (0)| 00:00:01 |
|* 3 | TABLE ACCESS FULL| EMPLOYEES | 68 | 476 | 3 (0)| 00:00:01 |
----------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - access("D"."DEPARTMENT_ID"="E"."DEPARTMENT_ID")
3 - filter("SALARY">10000)
おまけ:内部結合になぜDISTINCT句が必要なのか?
今回のようなSQLで内部結合を使う場合DISTINCT句が必要なことは先に述べたが、その理由を考えてみたい。
結合(ジョイン)は2つのテーブルから結果を取得するものであるが、「部署を表示せよ」ということであれば片方のテーブルに属するカラムのみを表示させることになる。
問題の主旨からすれば本来は「DEPARTMENT_NAME」のみを取得するだけでよかったのだが、今回はわかりやすくするために「DEPARTMENT_NAME」が従属する主キーである「DEPARTMENT_ID」も表示するようにした。
同様に、「SALARY > 10000」という条件で絞り込んだEMPLOYEES表を結合することを考えると、各行の主キーである「EMPLOYEE_ID」も一緒に結合すると考えることができる。
これを実際のクエリーで示したのが以下となる。
SQL> select
2 D.DEPARTMENT_ID
3 ,D.DEPARTMENT_NAME
4 ,E.EMPLOYEE_ID "(EMPLOYEE_ID)"
5 from
6 DEPARTMENTS D
7 inner join EMPLOYEES E
8 on D.DEPARTMENT_ID = E.DEPARTMENT_ID
9 where
10 E.SALARY > 10000
11 ;
DEPARTMENT_ID DEPARTMENT_NAME (EMPLOYEE_ID)
------------- --------------- -------------
20 Marketing 201
30 Purchasing 114
80 Sales 145
80 Sales 146
80 Sales 147
80 Sales 148
80 Sales 149
80 Sales 162
80 Sales 168
80 Sales 174
90 Executive 100
90 Executive 101
90 Executive 102
100 Finance 108
110 Accounting 205
15行が選択されました。
従って、このクエリーからEMPLOYEE_IDを非表示(SELECTリストから外す)としても、DISTINCT句を付けない限り結果は重複表示される。
これが、DISTINCT句付き内部結合としなければならない理由である。
まとめ
今回のタイトルは「INとEXISTSはどちらが速いのか?」にしてみたが、開発の現場ではこのような疑問が生じることが多々あるかと思う。
どちらでも結果が変わらない記述法があると「果たしてどちらがいいのか?」という議論になり、あまり望ましくない結論として「どちらかに統一してしまえ」ということになったりする。
「実行計画が変わらないのであればどちらでもよいではないか?」それはそれで問題ないのであるが、次のようなやっかいなトラブルが起きる可能性がある。
昔のバージョンにおいてEXISTS述語にすることで大きく性能改善させた成功体験のあるベテランSEがいたとする。
新人SEが一生懸命IN述語で書いてきたSQL文を見て、ベテランSEが「INなんかダメだ!EXISTSに書き直せ!」などと安直に指示したりすると、新人SEは一括置換でEXISTSに直したりするかもしれない。
本文でも紹介したように、EXISTSの場合はサブクエリーに結合条件を記述しなければならないのに、それがスッポリ抜け落ちてしまう可能性があり、しかも構文エラーにならないので間違いに気づかない危険性もある。
どちらかに統一するような不毛な議論をするのではなく、どちらでもよいのだという柔軟さを持つべきなのではないだろうか。
CBOは日々進化しており、以前の常識が通用しないかもしれないということをベテランは自覚し、最新バージョンではどうなっているのかという疑問を常に持ち続ける必要があるのではないかと、自戒を込めて主張したい。