仕事効率化

データ分析初学者向け:整然データについて基本から解説

スポンサーリンク

 

この記事はこんな方におススメです
  • データ分析をはじめたいが、どのように学習を進めればよいかわからない方
  • データ分析の基本的な部分の全体像を把握しておきたい方
  • データ分析の勉強を始めたが、進め方に迷っている方

▶ データ分析初学者向けに記事を書いています。

はじめに

今回は整然データについて基本から解説していきます。整然データとは、①個々の変数が1つの列をなし、②個々の観測が1つの行をなし、③個々の観測の構成単位の類型が1つの表をなし、④個々の値が1つのセルをなす、という4つの条件を満たしたデータのことです簡単にいえば、データを表形式で整理して、各行が観測、各列が変数を表す形式ですね。一方、雑然データは整然データの要件を満たさないデータで、例えば、1つの列に複数の変数が含まれていたり、同じ変数が複数の列にまたがっていたりする場合があります。

このブログでは整然データについて、基本から解説していきます。

整然データの重要性

「データ」として再利用価値があるにも関わらず、「表現」に特化した形式で情報を取り扱ってしまうと、再利用することができない。データを共有するときは再利用できる形式で、データを解釈するときは加工して「表現」するとよいでしょう。

このデータを共有するときの「再利用できる形式」の形のひとつが整然データとなります。整然データに変換することで、データを分析しやすくなります。ただし、整然データは必ずしも全ての場合に適しているわけではなく、分析したい内容によっては別の形式でデータを整理する必要があります。

次に整然データの要件について順にみていきましょう。

整然データの要件

冒頭にも記載しましたが、整然データの要件は以下の4つです。

  • 個々の変数が1つの列をなす
  • 個々の観測が1つの行をなす
  • 個々の観測の構成単位の類型が1つの表をなす
  • 個々の値が1つのセルをなす

この要件を満たさないデータのことを、「雑然データ」と呼びます。これらの要件を満たさないデータは「雑然データ」と呼ばれますが、それでも有用なデータである場合があります。例えば、クロス集計表は整然データの要件を満たさないため、「雑然データ」とされますが、データを分析して表現する上で有用であり、共有や再利用にも適しているという解釈ができます。ただし、データの整理や分析において、整然データを使うことで効率的に処理できる場合が多いため、できるだけ整然データに変換することが推奨されます。

整然データと雑然データの例

ここでは整然データと雑然データを実際の例でみてみましょう。

整然データの例
雑然データの例

わかりますか?雑然データの例と、整然データの要件を見ていくとわかりやすいかと思います。

個々の列が1つの変数をなす

このデータは「名前」「科目」「点数」という変数があります。雑然データとして示したデータでは、「名前」は列になっているが、「科目」は行になっていますね。「点数」は複数の行と列にまたがっています。つまり、「個々の列が1つの変数をなす」という要件を満たしてしません。

変数が行と列に配置されている

一方で、整然データとして示したデータでは、「名前」「科目」「点数」という変数のすべてが列になっています。

個々の観測が1つの行をなす

今回示したデータは9つの観測がされています。たとえば、ねこさんのこくごの点数は1つの観測です。雑然データではこれらがばらばらの位置に配置されています。

雑然データ:1つの観測がばらばらに配置されている例

一方で、整然データは次のように1つの観測が1つの行で表されます

整然データ:1つの観測が1つの行に配置されている

個々の観測の構成単位の類型が1つの表をなす

これは、「1つの表には種類の違う観測が入っていてはならない」「同じ種類の観測が複数の表にまたがっていてはならない」ということを表します。

1つ目の条件については、次のような意味となります。今回はどうぶつたちの試験の結果の表となっています。この表に、「毎日の天気の観測」のような違う種類の観測がはいってはいけない、ということです。

2つ目の条件については、「こくご」の点数と「えいご」の点数が別の表で表されてはいけない、ということです。同じ種類の観測は1つの表にまとまっているのが、整然データの要件となるわけですね。

個々の値が1つのセルをなす

これは1つの2つの値が入ってしまっては整然データにならない、ということを意味しています。たとえば、次のようにデータを持っている場合は整然データとはなりません。

1つのセルに2つの値が入ってはダメ
スポンサーリンク

まとめ

今回は整然データについて基本から解説しました。整然データはデータ分析において必要不可欠なデータの型の1つです。特にデータ分析するために他の人に共有したり、再利用する際にはこの型が好ましいと言えます。整然データであるためには4つの条件がありました。1つ1つの条件を例を示しながら解説したので、わかりにくところは読み返して理解しましょう。

コメント

タイトルとURLをコピーしました