並列クエリを実行するPostgreSQLのアーキテクチャ

並列クエリを実行する
PostgreSQLのアーキテクチャ
The PG-Strom Project
KaiGai Kohei <kaigai@kaigai.gr.jp>

PostgreSQL v9.6の目玉機能
Database Lounge Tokyo #1 - The architecture of PostgreSQL to run parallel queries2
パラレルクエリ
並列にクエリを処理すること

本日のアジェンダ
▌先史時代 (~v9.2)
▌要素技術 (v9.3~v9.5)
▌並列クエリの実現 (v9.6)
▌今後の動向 (v9.7~)
▌お知らせとお願い

fork(2)
accept(2)
PostgreSQLのアーキテクチャ (1/3) – postmasterと子プロセス
▌マルチプロセス
 1プロセス：1スレッド
 プロセス内に閉じた処理であれば、
同期/排他を考える必要なし
▌postmasterの役割
 PostgreSQL起動時の初期化
 共有メモリ、ロック、管理構造体、etc...
 accept(2)してfork(2)
 子プロセスの動作状況を管理
postmaster
bgwriter
autovacuum
backend
backend
backend
backend
walwriter
shared memory
storage

▌子プロセスの上限
 max_connections + max_workers
 PGPROC配列他、プロセス管理に
必要なデータ構造を初期化時に
確保するため。
 サイジング的観点も。
▌例：PGPROC配列
 pid、ラッチ、待機中ロック等を含む
 postmasterや他のbackendが、
並行プロセスの状態を知る。
postmaster
bgwriter
autovacuum
backend
backend
backend
backend
walwriter
pg_ctl
NUM_AUXILIARY_PROCS MaxBackends
SIGTERM
SIGTERM
PGPROC配列

▌子プロセスの上限
 max_connections + max_workers
 PGPROC配列他、プロセス管理に
必要なデータ構造を初期化時に
確保するため。
 サイジング的観点も。
▌例：PGPROC配列
 pid、ラッチ、待機中ロック等を含む
 postmasterや他のbackendが、
並行プロセスの状態を知る。
postmaster
bgwriter
autovacuum
backend
backend
backend
backend
walwriter
NUM_AUXILIARY_PROCS MaxBackends
SIGCHLD
Crash
reaper
SIGQUIT

fork(2)
accept(2)
postmasterと子プロセス – 先史時代 (~v9.2以前)
postmaster
bgwriter
autovacuum
backend
backend
backend
backend
walwriter
shared memory
storage
特定用途の
ワーカープロセス
PostgreSQLの
ユーザセッションに対応
“何か”をするために
ワーカープロセスを
起動する事ができなかった。
(....自分でインフラを作れば別だけど....)

拡張モジュールだって非同期処理がしたい！ (1/2)
拡張モジュール独自の
処理を行うワーカープロセス
DB Tech Showcase 2014/Tokyo 発表資料より

拡張モジュールだって非同期処理がしたい！ (2/2)
To: pgsql-hackers
拡張モジュールが独自にワーカーを
定義できるよう、postmasterを拡張して
みました。いかがなものでしょ？
From: Alvaro Herrera
同感。Windows対応機能とかが必要な
ので、Simonが送ってくれたパッチと併
せて作り直してみました。
2012年4月頃：
To: pgsql-hackers
ありがとうございます。じゃあ、私は
レビューの方で協力させてください。
(FDWのタスクもあるので....)
と、いった話もあり、、、
PgSQL 9.3
新機能

並列クエリの実現に向けて – 必要な要素技術
▌オンデマンドでワーカープロセスを起動する
 Dynamic background worker
▌バックエンドプロセス～ワーカープロセス間で通信する
 Dynamic shared memory
 Shared memory message queue / Shared memory table of contents
▌一貫したトランザクションのイメージを使用する
 Parallel context
▌処理を複数のワーカーに分割し、後で集約する
 Gather node & Partial SeqScan
 Plan Serialization / Deserialization
▌並列処理を意識したクエリ実行計画
 Optimizer enhancement
 Upper Path Optimization
▌拡張モジュールとの連携
 FDW/Custom-Scan

bgworker
bgworker
bgworker
bgworker
Dynamic Background Worker
 max_worker_processes の範囲内なら、
動的にbgworkerを登録可能に
 登録と同時にpostmasterへシグナルを送り、
可及的速やかにbgworkerプロセスを起動
する。
 誰かが大量に bgworker を使っていると、
必ずしも十分な数の bgworker を確保でき
ない可能性がある。
 PostgreSQLのパラレルクエリは、仮に
bgworkerを一個も使えない状況であっても、
動作はするよう設計されている。
v9.4
課題： postmaster起動時にしかBackground Workerを登録できなかった。
postmaster
backend
backend
PGPROC配列
BackgroundWorker配列
max_worker_processes
RegisterDynamic-
BackgroundWorker()
SIGUSR1

fork(2)
bgworker
bgworker
bgworker
bgworker
Dynamic Shared Memory
▌Static shared memory
 PostgreSQLにおける従来の共有メモリ
 起動時に一定サイズを確保。後で拡張できない。
 ポインタはポータブル。どのプロセスから見ても
同じ仮想アドレスに存在する。
▌Dynamic shared memory
 PostgreSQL v9.4で導入された内部のインフラ
 オンデマンドで任意のサイズを確保。
 dsm_handle (=32bit値) さえ渡せば、他のプロ
セスでも同じメモリ領域をマップ可能
 ポインタは非ポータブル。セグメント先頭からの
オフセットによって値を表現する必要がある。
 トランザクションが終了 (commit/abort) すると
自動的に cleanup される。
v9.4
課題：共有メモリは postmaster 起動時に確保したきり。あとで動的に追加できなかった。
backend
backend
static shared memory
backend
postmaster
dynamic
shared memory
起動時に一定サイズの共有メモリを獲得
アドレス空間は fork(2) で継承されるため、
ポインタはポータブル
オンデマンドで共有メモリを獲得。
同じ仮想アドレスにmmap(2)される保証はなく、
dsm_handle + offsetで表現する必要がある。
dsm_create()
dsm_handle
dsm_attach()

Multi Version Concurrency Control (1/2)
データベース
テーブル
データ領域
Table
タプルヘッダ領域
struct HeapTupleHeaderData
{
struct HeapTupleFields
{
TransactionId t_xmin; /* inserting xact ID */
TransactionId t_xmax; /* deleting or locking xact ID */
union
{
CommandId t_cid; /* inserting or deleting command ID, or both */
TransactionId t_xvac; /* old-style VACUUM FULL xact ID */
} t_field3;
} t_heap;
ItemPointerData t_ctid; /* current TID of this or newer tuple */
uint16 t_infomask2; /* number of attributes + various flags */
uint16 t_infomask; /* various flag bits, see below */
uint8 t_hoff; /* sizeof header incl. bitmap, padding */
/* ^ - 23 bytes - ^ */
bits8 t_bits[FLEXIBLE_ARRAY_MEMBER]; /* bitmap of NULLs */
/* MORE DATA FOLLOWS AT END OF STRUCT */
};

Multi Version Concurrency Control (2/2)
▌可視性を判定するルール（ざっくり）
 xmin: タプルを作った人のトランザクションID。十分に古い時は Freezed (無限遠)。
 xmin: このタプルを更新/削除した人のトランザクションID。
 ざっくり言えば xmin ≦ 自分のXID ≦ xmax である時にタプルが見えるイメージ。
 ※もちろん、並行トランザクションやSAVEPOINTの扱いで色々やっているので、↑をま
んま信じないでください。
▌並列クエリがビューを共有するには
 トランザクションのスナップショットをExport、ワーカー側でこれを再現してやる。
 同一のスナップショットからは同一のビューが得られる。
xmin xmax cmax/cmin x y z
14684 0 0 100 ‘aaa’ 200
14684 0 0 101 ‘bbb’ 200
14684 14691 1 102 ‘ccc’ 210
14685 14691 0 103 ‘ddd’ 205
14685 0 1 104 ‘eee’ 210
snapshot
xmin, xmax, xip[],
...など
ユーザー列システム列

Parallel Context
▌プランを実行して同一の結果が返ってくるためには
 同一のトランザクション分離レベルを持つ
 同一の Snapshot を持つ
 GUC変数の設定が同一である
 同一の拡張モジュールがロードされている
 volatileなSQL関数が含まれていない
 .....など。
▌ParallelContext
 特定の Backend の状態をシリアライズして共有メモリ上に記録。
 Bgworker側では、共有メモリの dsm_handle を使用してシリアライズされた
呼び出し元 Backend の状態を取得し、状態を再現する。
初期設定を終えた後、Parallel Contextに紐付けられた関数を呼び出す。
この状態で表スキャンを行うと、呼び出し元 Backend と同一の可視性判定が
行われる。
課題：各bgworkerは同一のMVCC判定、同一の実行環境を持たねばならない。
v9.5

Gather & Partial SeqScan (1/3)
table
shared buffer
storage manager
shared
state
Partial
SeqScan
Partial
SeqScan
Partial
SeqScan
Partial
SeqScan
Gather
結果
shm_mq
shared memory
message queue
bgworker１個あたり、
平均 nrows/4行を
読み出す
v9.6

shared
state
Partial
SeqScan
Partial
SeqScan
Partial
SeqScan
Partial
SeqScan
Gather
結果
shm_mq
shared memory
message queue
qualifier qualifier qualifier qualifier
行数を削る行数を削る行数を削る行数を削る
v9.6

▌Gatherノードの役割
 bgworkerを起動する。
 もし起動できなかったら？  従来のPostgreSQLと同様に、シングルプロセスで動作。
 parallel-contextを介してbgworkerに実行コンテキストを渡す
 Gatherノード配下のPlan-SubTreeや、トランザクション状態など。
 shm_mqを介してbgworkerから結果を受け取る
 メッセージ受け渡しコストが意外と高く、バッファも大きくない (64KB/worker)。
▌Gatherノード配下で動作するノードの働き
行を生成するノードその他のノード
シングルプロセス実行と同様
入力に対して出力を行う
互いに出力が重複しないよう
出力を行う
v9.6

Nested-Loop in Parallel
Nested-
Loop
Parallel
SeqScan
Index
Scan
outer
table
inner
table
Nested-
Loop
Parallel
SeqScan
Index
Scan
inner
table
Nested-
Loop
Parallel
SeqScan
Index
Scan
inner
table
Gather
結果
nrows/3 行nrows/3 行
nrows/3 行
こっち側がNULLになる可能性の
あるOUTER JOINは無理
v9.6

Hash-Join in Parallel
Hash-Join
Parallel
SeqScanSeqScan
outer
table
inner
table
Hash-Join
Parallel
SeqScanSeqScan
inner
table
Hash-Join
Parallel
SeqScanSeqScan
inner
table
Gather
nrows/3 行
Hash Hash Hash
結果
こっち側がNULLになる可能性の
あるOUTER JOINは無理
v9.6

Aggregation in Parallel
table nrows/4 行nrows/4 行
Final
Aggregate
Parallel
SeqScan
Parallel
SeqScan
Parallel
SeqScan
Parallel
SeqScan
Partial
Aggregate
Partial
Aggregate
Partial
Aggregate
Partial
Aggregate
Gather
count(X),
sum(X)
結果
count(X),
sum(X)
count(X),
sum(X)
count(X),
sum(X)
AVG(X) = 𝑠𝑢𝑚(𝑋) 𝑐𝑜𝑢𝑛𝑡(𝑋)
SELECT AVG(X) FROM tbl
GROUP BY category;
v9.6

並列クエリ実行例 (1/2)
postgres=# set max_parallel_workers_per_gather = 1000;
SET
postgres=# EXPLAIN ANALYZE SELECT cat, avg(ax) FROM t0 NATURAL JOIN t1 GROUP BY cat;
QUERY PLAN
----------------------------------------------------------------------------------------------------------
Finalize GroupAggregate (cost=1789416.68..1789418.37 rows=26 width=12)
(actual time=10958.136..10958.196 rows=26 loops=1)
Group Key: t0.cat
-> Sort (cost=1789416.68..1789417.14 rows=182 width=36)
Sort Key: t0.cat
Sort Method: quicksort Memory: 55kB
-> Gather (cost=1789391.39..1789409.85 rows=182 width=36)
Workers Planned: 7
Workers Launched: 7
-> Partial HashAggregate (cost=1788391.39..1788391.65 rows=26 width=36)
Group Key: t0.cat
-> Hash Join (cost=3674.00..1288390.99 rows=100000080 width=12)
Hash Cond: (t0.aid = t1.aid)
-> Parallel Seq Scan on t0 (cost=0.00..976191.26 rows=14285726 width=8)
-> Hash (cost=1935.00..1935.00 rows=100000 width=12)
Buckets: 131072 Batches: 2 Memory Usage: 3180kB
-> Seq Scan on t1 (cost=0.00..1935.00 rows=100000 width=12)
Planning time: 0.328 ms
Execution time: 10958.825 ms
(18 rows)

並列クエリ実行例 (2/2)
postgres=# EXPLAIN ANALYZE SELECT cat, avg(ax) FROM t0 NATURAL JOIN t1 GROUP BY cat;
QUERY PLAN
--------------------------------------------------------------------------------------
HashAggregate (cost=4493751.30..4493751.63 rows=26 width=12)
Group Key: t0.cat
-> Hash Join (cost=3674.00..3993750.90 rows=100000080 width=12)
Hash Cond: (t0.aid = t1.aid)
-> Hash (cost=1935.00..1935.00 rows=100000 width=12)
Buckets: 131072 Batches: 2 Memory Usage: 3180kB
Planning time: 0.900 ms
Execution time: 77128.944 ms
(10 rows)

CPU+GPU Hybrid Parallel
SeqScan
outer
table
inner
table
Gather
結果
Final Aggregate
GpuPreAgg
GpuHashJoin
SeqScan
inner
table
GpuPreAgg
GpuHashJoin
SeqScan
inner
table
GpuPreAgg
GpuHashJoin
nrows/3 行
CustomScanノード上に
CPU+GPUパラレル機能を
実装
v9.6+PG-Strom

オプティマイザの改良 (1/3)
▌従来のオプティマイザ
 前半： Scan + Joinの組合せをコストベースで判断
 後半：ソート、集約、Window関数など、その他のロジックを問答無用で付加
 改善ポイント
① 並列化してはならないサブプランは排除しなければならない。
② 後半のプラン生成もコストベースで行う必要がある。
v9.6
課題：並列処理を実行するか（できるか）否か、コストベースで判断しなければならない。
SELECT cat, avg(X)
FROM t1 NATURAL JOIN t2 NATURAL JOIN t3
GROUP BY cat
ORDER BY cat;
HJ: t1x(t2xt3)
cost=100
HJ: (t1xt2)xt3
cost=5000
HJ: (t1xt3)xt2
cost=200
NL: (t1xt2)xt3
cost=3000
NL: (t1xt3)xt2
cost=240
NL: t1x(t2xt3)
cost=50
前半後半
NL: t1x(t2xt3)
cost=50
Agg by cat
NL: t1x(t2xt3)
cost=50
Sort by cat
Agg by cat

オプティマイザの改良 (2/3)
▌consider_parallel
 このScan/JoinがGatherノード配下で
実行してよいかどうかを示すフラグ
▌partial_pathlist
 Gatherノード配下で実行する際に、
各bgworker間で重複排除ができる
候補パスのリスト
 必ずしも cheapest とは限らない。
▌例） JOINのパスを作る時
 inner/outer側が共に
consider_parallel=trueで、
JOIN自身も並列化可能ならOK
 partial_pathlist 中のパスでコスト最安
のパスに GatherPath を付加し、シーケ
ンシャル実行も含む、最も安いパスを
選択する。
typedef struct RelOptInfo
{
NodeTag type;
RelOptKind reloptkind;
/* all relations included in */
Relids relids;
/* size estimates */
double rows;
:
/* consider parallel paths? */
bool consider_parallel;
:
/* Path structures */
List *pathlist;
List *ppilist;
/* partial Paths */
List *partial_pathlist;
struct Path *cheapest_startup_path;
struct Path *cheapest_total_path;
struct Path *cheapest_unique_path;
:
}

オプティマイザの改良 (3/3) – 二段階集約
▌後半のプラン生成もコストベースに変更
 現状、集約演算がこれに対応。ソート等も可能性？はありそう。
▌従来の集約演算
 シーケンシャルに処理するが、プロセス間データコピーは必要ない。
▌二段階集約(Partial + Final Aggregation)
 並列処理可能だが、件数が増えるに伴ってshm_mqがボトルネックとなる。
 Partial Agg) 集約関数の中間結果を生成する。各プロセスにMapした結果の生成。
 Final Agg) 中間結果を受け取り、平均値や標準偏差などを出力。Reduceに相当。
HJ: t1x(t2xt3)
cost=100
HJ: (t1xt2)xt3
cost=5000
HJ: (t1xt3)xt2
cost=200
NL: (t1xt2)xt3
cost=3000
NL: (t1xt3)xt2
cost=240
NL: t1x(t2xt3)
cost=50
前半後半
NL: t1x(t2xt3)
cost=50
Agg by cat
NL: t1x(t2xt3)
cost=50
Final Agg by cat
Partial Agg by cat
Or
Gather
どちらのパスを使用して集約演算を行うか？

今後の展望
▌Partial Sort + Merge Join
▌Hash table in shared memory
▌Declarative Partitioning
 Append Pushdown
 Inner-Hash size reduction
▌Asynchronous Execution
▌Better Plan Construction
v9.7~

【拡散希望】 – ユーザを探しています (1/2)
▌試用ユーザ募集中
 GPUを活用した高速 In-database Analytics/Computing に興味のある方。
 教師なし学習アルゴリズム (非階層/階層型クラスタリング) を実装し、実データによる
評価を行いたい。
 評価環境の提供と、アルゴリズムの実装はPG-Stromプロジェクトで実施。
ワークロードと評価用データをご提供いただける方を探しています。
 評価環境： CPU: E5-2670v3 x2, RAM: 384GB, GPU: Tesla K20 or GTX1080
CREATE FUNCTION kmeans(matrix, int)
RETURNS vector
AS $$
$$ LANGUAGE ‘plcuda’;
User define CUDA logic
(通常のSQL関数として記述可能)
User defined
CUDA code
PG-Strom’s matrix
support routines
GPU Kernel for
SQL function
‘kmeans()’
実行時ビルド
PG-Strom
Input
buffer
Output
buffer
SQL関数実行結果
matrixのロード
ユーザCUDAロジックの定義：

【拡散希望】 – ユーザを探しています (2/2)
CREATE OR REPLACE FUNCTION
gpu_similarity(int[], -- key bitmap (1xM matrix)
int[], -- ID array (Nx1 matrix)
int[]) -- fingerprint bitmap (NxM matrix)
RETURNS float4[]
AS $$
#plcuda_begin
#plcuda_num_threads gpu_similarity_main_num_threads
:
fp_map = (cl_uint *)ARRAY_MATRIX_DATAPTR(arg3.value);
for (i=0; i < width; i++, fp_map += height)
{
bitmap = fp_map[get_global_id()];
sum_and += __popc(keymap[i] & bitmap);
sum_or += __popc(keymap[i] | bitmap);
}
/* similarity */
dest[get_global_id()] =
(sum_or > 0 ? (cl_float)sum_and / (cl_float)sum_or : 0.0);
:
#plcuda_end
$$ LANGUAGE 'plcuda';

まとめ
▌PostgreSQLのプロセスモデル
 1プロセス – 1スレッド
 postmasterが子プロセスの起動生成を管理。
▌PostgreSQLの並列クエリの考え方
 “並列” 向けの特別対応は必要最小限に。既存のコードをAs-Isで動作させる。
 各コアでPartial xxxScanが一部分を読出し、最後にGatherで集約
スタースキーマ / 典型的OLAPワークロードでの効果が期待。
 一方、各コアで効率的にデータを削減できないと却って非効率になる事も…。
▌過去数バージョンにおけるインフラ強化
 v9.3 Background Worker
 v9.4 Dynamic Background Worker,
Dynamic Shared Memory, shm_mq, shm_toc, etc...
 v9.5 Parallel Context, Sub-plan serialization, etc...
 v9.6 Gather & Partial SeqScan,
Two phase aggregation,
Upper Path Optimization, etc...

並列クエリを実行するPostgreSQLのアーキテクチャ

More Related Content

What's hot (20)

Viewers also liked (11)

Similar to 並列クエリを実行するPostgreSQLのアーキテクチャ (20)

More from Kohei KaiGai (20)

並列クエリを実行するPostgreSQLのアーキテクチャ