用語集
CSV ファイルや差分管理でよく使われる用語の意味をまとめました。
- CSV(シーエスブイ)
- Comma-Separated Values。項目をカンマで区切ったテキスト形式。標準仕様は RFC4180。
- TSV(ティーエスブイ)
- Tab-Separated Values。CSV のカンマがタブに置き換わったもの。データ中にカンマを含むケースで使われる。
- BOM(ボム)
- Byte Order Mark。ファイル先頭に付与される「これは UTF-8 です」等を示すマーカー。Excel が文字コードを自動判別しやすくなる。
- CRLF(シーアールエルエフ)
- 改行コードの一種。Carriage Return + Line Feed(\r\n)。Windows 標準。
- LF(エルエフ)
- 改行コード Line Feed(\n)。Mac / Unix 標準。比較ちゃんは内部で LF に正規化して扱う。
- UTF-8(ユーティーエフエイト)
- 世界標準の Unicode 文字エンコーディング。多言語対応で広く使われる。比較ちゃんの推奨文字コード。
- Shift_JIS(シフトジス)
- 日本語向けの文字コード。Windows 環境で長く使われてきたが、UTF-8 への移行が進んでいる。
- RFC4180(アールエフシー 4180)
- CSV の事実上の標準仕様を定めた IETF の文書。区切り文字・引用符・改行のルールを明文化。
- フィールド
- CSV の 1 つのセル(カンマとカンマで区切られた最小単位)。
- レコード
- CSV の 1 つの行。改行で区切られる。
- クォート
- セル値をダブルクォート(")で囲むこと。値にカンマや改行を含めるために必要。
- エスケープ
- 特殊文字を意味のある形で表現する手法。CSV ではダブルクォートを 2 つ重ねる("")。
- diff(ディフ)
- 差分。Unix の diff コマンドが語源。本サイトはブラウザ版 diff ツール。
- unified diff
- diff の出力形式の一種。前後の context 行を含めて差分を表示する。git の差分表示で標準的に使われる。
- マージ
- 2 つ以上のデータを統合すること。差分管理の延長で必要になるオペレーション。
- セット差
- 集合演算の一種。A − B で「A にあって B に無い要素」。比較ちゃんの基本動作。
- 正規化
- データの表記揺れを統一する処理。改行コード・大文字小文字・全角半角の統一など。比較ちゃんは改行コードを自動正規化する。
- CSV Injection
- CSV セル値に数式(=cmd|...)を埋め込み、Excel で開いた被害者の PC で任意コマンドを実行させる攻撃。OWASP 推奨対応は先頭 ' のクオート付与。