▶ データ分析初学者向けに記事を書いています。
はじめに
今回は整然データについて基本から解説していきます。整然データとは、①個々の変数が1つの列をなし、②個々の観測が1つの行をなし、③個々の観測の構成単位の類型が1つの表をなし、④個々の値が1つのセルをなす、という4つの条件を満たしたデータのことです。簡単にいえば、データを表形式で整理して、各行が観測、各列が変数を表す形式ですね。一方、雑然データは整然データの要件を満たさないデータで、例えば、1つの列に複数の変数が含まれていたり、同じ変数が複数の列にまたがっていたりする場合があります。
このブログでは整然データについて、基本から解説していきます。
整然データの重要性
「データ」として再利用価値があるにも関わらず、「表現」に特化した形式で情報を取り扱ってしまうと、再利用することができない。データを共有するときは再利用できる形式で、データを解釈するときは加工して「表現」するとよいでしょう。
このデータを共有するときの「再利用できる形式」の形のひとつが整然データとなります。整然データに変換することで、データを分析しやすくなります。ただし、整然データは必ずしも全ての場合に適しているわけではなく、分析したい内容によっては別の形式でデータを整理する必要があります。
次に整然データの要件について順にみていきましょう。
整然データの要件
冒頭にも記載しましたが、整然データの要件は以下の4つです。
- 個々の変数が1つの列をなす
- 個々の観測が1つの行をなす
- 個々の観測の構成単位の類型が1つの表をなす
- 個々の値が1つのセルをなす
この要件を満たさないデータのことを、「雑然データ」と呼びます。これらの要件を満たさないデータは「雑然データ」と呼ばれますが、それでも有用なデータである場合があります。例えば、クロス集計表は整然データの要件を満たさないため、「雑然データ」とされますが、データを分析して表現する上で有用であり、共有や再利用にも適しているという解釈ができます。ただし、データの整理や分析において、整然データを使うことで効率的に処理できる場合が多いため、できるだけ整然データに変換することが推奨されます。
整然データと雑然データの例
ここでは整然データと雑然データを実際の例でみてみましょう。
わかりますか?雑然データの例と、整然データの要件を見ていくとわかりやすいかと思います。
個々の列が1つの変数をなす
このデータは「名前」「科目」「点数」という変数があります。雑然データとして示したデータでは、「名前」は列になっているが、「科目」は行になっていますね。「点数」は複数の行と列にまたがっています。つまり、「個々の列が1つの変数をなす」という要件を満たしてしません。
一方で、整然データとして示したデータでは、「名前」「科目」「点数」という変数のすべてが列になっています。
個々の観測が1つの行をなす
今回示したデータは9つの観測がされています。たとえば、ねこさんのこくごの点数は1つの観測です。雑然データではこれらがばらばらの位置に配置されています。
一方で、整然データは次のように1つの観測が1つの行で表されます
個々の観測の構成単位の類型が1つの表をなす
これは、「1つの表には種類の違う観測が入っていてはならない」「同じ種類の観測が複数の表にまたがっていてはならない」ということを表します。
1つ目の条件については、次のような意味となります。今回はどうぶつたちの試験の結果の表となっています。この表に、「毎日の天気の観測」のような違う種類の観測がはいってはいけない、ということです。
2つ目の条件については、「こくご」の点数と「えいご」の点数が別の表で表されてはいけない、ということです。同じ種類の観測は1つの表にまとまっているのが、整然データの要件となるわけですね。
個々の値が1つのセルをなす
これは1つの2つの値が入ってしまっては整然データにならない、ということを意味しています。たとえば、次のようにデータを持っている場合は整然データとはなりません。
まとめ
今回は整然データについて基本から解説しました。整然データはデータ分析において必要不可欠なデータの型の1つです。特にデータ分析するために他の人に共有したり、再利用する際にはこの型が好ましいと言えます。整然データであるためには4つの条件がありました。1つ1つの条件を例を示しながら解説したので、わかりにくところは読み返して理解しましょう。
コメント