SQL カンマ区切りの文字列を複数列に分割して取得する
CSVの値など、カンマ区切りの文字列がそのままデータベースに登録されていて、その値をカンマ区切りに複数の列に分割して取得したい場合があります。
INSTRとSUBSTRをうまく組み合わせれば取得することができます。
例えば以下のようなテーブルがあるとします。
| レコード |
|---|
| 1,A,あ |
| 2,B,い |
| 3,C |
以下のようなSQLを実行します。
SELECT
CASE WHEN INSTR(T1.レコード, ',', 1, 1) = 0 THEN T1.レコード
ELSE SUBSTR(T1.レコード, 1, INSTR(T1.レコード, ',', 1, 1) -1) END 列1
,CASE WHEN INSTR(T1.レコード, ',', 1, 1) = 0 THEN NULL
WHEN INSTR(T1.レコード, ',', 1, 2) = 0 THEN SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 1) + 1)
ELSE SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 1) + 1, INSTR(T1.レコード, ',', 1, 2) - INSTR(T1.レコード, ',', 1, 1) - 1) END 列2
,CASE WHEN INSTR(T1.レコード, ',', 1, 2) = 0 THEN NULL
WHEN INSTR(T1.レコード, ',', 1, 3) = 0 THEN SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 2) + 1)
ELSE SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 2) + 1, INSTR(T1.レコード, ',', 1, 3) - INSTR(T1.レコード, ',', 1, 2) - 1) END 列3
FROM
CSVデータ T1| 列1 | 列2 | 列3 |
|---|---|---|
| 1 | A | あ |
| 2 | B | い |
| 3 | C | null |
INSTR関数
INSTR関数は文字を検索する関数です。
INSTR(対象の文字列, 検索する文字列, 検索の開始位置(1文字目が1), 出現回数)のように引数を指定し、出現した位置を返します。出現しなかった場合は0を返します。
例えば、上記SQLの2行目の部分CASE WHEN INSTR(T1.レコード, ',', 1, 1) = 0 THEN は、T1.レコードの文字列から、カンマを1文字目から検索し、1回出現した位置が0、すなわちカンマがひとつも含まれていない場合という条件になります。
SUBSTR関数
SUBSTR関数は文字を切り出す関数です。
SUBSTR(対象の文字列, 開始位置, 切り出す文字数)のように引数を指定し、切り取られた文字列を返します。
例えば、上記SQLの3行目の部分SUBSTR(T1.レコード, '1', 'INSTR(T1.レコード, ',', 1, 1) -1) は、T1.レコードの文字列を、1文字目から、T1.レコードの文字列から、カンマを1文字目から検索し、1回出現した位置-1文字を切り出します。
SQLの解説
列1
最初の項目(列1)を取得するSQLは上記で説明したとおりです。
文字列にカンマが1つも含まれていない場合はT1.レコードをそのまま出力し、以外の場合は最初に出現したカンマまで(最初に出現したカンマの位置-1)の文字列を出力します。
列2
4行目のCASE文の条件は列1の条件と同様です。
しかし、列1の場合とは異なり、列2の場合は、カンマがひとつも含まれていない場合はnullを出力します。
5行目について、WHEN INSTR(T1.レコード, ',', 1, 2) = 0 THENなので、T1.レコードの文字列から、カンマを1文字目から検索し、2回出現した位置が0、すなわちカンマが1つだけ含まれている場合という条件になります。 この条件を満たす場合は、SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 1) + 1)なので、T1.レコードの文字列を、T1.レコードの文字列から、カンマを1文字目から検索し、1回出現した位置+1以降の文字列を切り出します。
6行目について、ELSEなので4行目、5行目の条件以外の場合、すなわちカンマが2つ以上含まれている場合の処理です。
SUBSTR(T1.レコード, INSTR(T1.レコード, ',', 1, 1) + 1, INSTR(T1.レコード, ',', 1, 2) - INSTR(T1.レコード, ',', 1, 1) - 1)なので、T1.レコードの文字列を、T1.レコードの文字列から、カンマを1文字目から検索し、1回出現した位置+1からT1.レコードの文字列から、カンマを1文字目から検索し、2回出現した位置-T1.レコードの文字列から、カンマを1文字目から検索し、1回出現した位置(すなわちカンマの1つ目から2つ目の間の文字の数)文字を切り出します。
文章にしたらかなりややこしくなってしまいました...
列3以降は、列2のSQLのカンマの出現する回数INSTR(T1.レコード, ',', 1,X)を増やしていけば取得することができます。
無理にSQLで取得しようとするのではなく、普通に取得したあとにsplitなどで加工したほうが簡単で不具合も少なく済みそうです。