メインコンテンツへスキップ

用語集

CSV ファイルや差分管理でよく使われる用語の意味をまとめました。

CSVシーエスブイ
Comma-Separated Values。項目をカンマで区切ったテキスト形式。標準仕様は RFC4180。
TSVティーエスブイ
Tab-Separated Values。CSV のカンマがタブに置き換わったもの。データ中にカンマを含むケースで使われる。
BOMボム
Byte Order Mark。ファイル先頭に付与される「これは UTF-8 です」等を示すマーカー。Excel が文字コードを自動判別しやすくなる。
CRLFシーアールエルエフ
改行コードの一種。Carriage Return + Line Feed(\r\n)。Windows 標準。
LFエルエフ
改行コード Line Feed(\n)。Mac / Unix 標準。比較ちゃんは内部で LF に正規化して扱う。
UTF-8ユーティーエフエイト
世界標準の Unicode 文字エンコーディング。多言語対応で広く使われる。比較ちゃんの推奨文字コード。
Shift_JISシフトジス
日本語向けの文字コード。Windows 環境で長く使われてきたが、UTF-8 への移行が進んでいる。
RFC4180アールエフシー 4180
CSV の事実上の標準仕様を定めた IETF の文書。区切り文字・引用符・改行のルールを明文化。
フィールド
CSV の 1 つのセル(カンマとカンマで区切られた最小単位)。
レコード
CSV の 1 つの行。改行で区切られる。
クォート
セル値をダブルクォート(")で囲むこと。値にカンマや改行を含めるために必要。
エスケープ
特殊文字を意味のある形で表現する手法。CSV ではダブルクォートを 2 つ重ねる("")。
diffディフ
差分。Unix の diff コマンドが語源。本サイトはブラウザ版 diff ツール。
unified diff
diff の出力形式の一種。前後の context 行を含めて差分を表示する。git の差分表示で標準的に使われる。
マージ
2 つ以上のデータを統合すること。差分管理の延長で必要になるオペレーション。
セット差
集合演算の一種。A − B で「A にあって B に無い要素」。比較ちゃんの基本動作。
正規化
データの表記揺れを統一する処理。改行コード・大文字小文字・全角半角の統一など。比較ちゃんは改行コードを自動正規化する。
CSV Injection
CSV セル値に数式(=cmd|...)を埋め込み、Excel で開いた被害者の PC で任意コマンドを実行させる攻撃。OWASP 推奨対応は先頭 ' のクオート付与。