▶ データ分析の手順など基本を解説した書籍の紹介は以下の記事をどうぞ
▶ 以下の記事でPowerQueryを使った自動処理を紹介しています。
はじめに
データ分析において、グラフの選び方は非常に重要です。グラフを正しく選択し、適切に解釈することで、データから得られる情報やインサイトを明確に表現することができます。しかし、グラフを誤って選択すると、データの解釈が誤解を招く可能性があります。この記事では、データ分析におけるグラフの選び方を基本から解説します。
グラフを用途別に分類する
まずはグラフを用途で分類してみましょう。細かく分類することもできますが、ここではよく利用するものを意識して「比較」「推移」「割合」「関係性」に分けてみましょう。
比較
データ分析の基本は比較ですね。何かと比較して始めて大きい・小さいと違いに気づくことができます。比較する際は、棒グラフが基本となります。これは日常でも頻繁に目にしますね。
推移
次に推移です。比較の一つとも考えられますが、時の流れにつれ、データがどのように変化していくかを示したい場合を推移として扱うことにしましょう。これも日常でよく目にしますね。棒グラフ、折れ線グラフ、面グラフなどがよく使われます。
割合
全体に占める割合もデータ分析するうえで重要な視点です。ビジネスでおこなうシェアの調査も割合ですね。割合では、円グラフ、100%積み上げグラフ、積み上げ棒グラフなどを使います。
関係性
最後は関係性です。2つの量に関係があるかどうかをみる場合ですね。この2つの量の関係性には散布図が使われます。
各グラフの概要
ここまで整理してきたように、用途別に使うグラフは大体決まってきます。各グラフについてもう少し詳しく見ていくことにしましょう。
棒グラフ
棒グラフは何かを軸に比較します。例えば、商品ごとに比較する、期間ごとに比較する、などです。「量的データ」であれば量を比較「質的データ」であれば数を比較します。
上のグラフは東京都のオープンデータカタログサイト(https://portal.data.metro.tokyo.lg.jp/)の「規模、産業、性別常用労働者の1人平均月間現金給与額」から作成しています。
縦棒グラフは並び順に意味があり、且つ、比較対象が多くない場合に利用するとよいでしょう。縦棒グラフでは凡例を利用すると2軸での比較も可能ですが、把握しづらい場合もあるので注意して使うようにしましょう。
横棒グラフは並び順に意味がない場合や比較対象が多い場合に利用するとよいでしょう。横棒グラフは多い順に並べるとみやすいです。ランキングなども横棒グラフで表すことが多いですね。
折れ線グラフ
時間の推移によりデータがどのように変化するかを表したい場合は折れ線グラフがよく使われます。要素の数が多すぎると見づらいので注意しましょう。
このグラフは東京都のオープンデータカタログサイト(https://portal.data.metro.tokyo.lg.jp/)の「男女別人口及び地域別人口(日本人)」から作成しています。
面グラフ
面グラフは、横軸で時間のような変化の流れを把握し、縦軸で量を同時に見る事ができるグラフです。データの構成要素で時系列ごとの推移を見たい場合、積上げ棒グラフでも表現できますが、面グラフのを使うとよりわかりやすいです。全体的な属性ごとの比率や総量を表現するときに用いることが多いと考えればよいでしょう。
面グラフを使うと各要素の構成と総量の推移をわかりやすく表現できます。男女比はほとんど変わらないですが、総人口は増え続けてますね。
円グラフ
円グラフは円全体を100%として、ある量に占める内訳を表します。但し、円グラフは「割合の比較がしづらい」「項目数が増えるとみづらい」「総量は表現しづらい」という側面があるので注意して使いましょう。
また、最近では円グラフの代わりにドーナツグラフを使うことも多いです。
円グラフに関しては次のような場合に利用するとよいでしょう。
- 要素数が少なく全体に対しての割合を明確にしたいとき
要素が2つで割合を表したいときは、円グラフは最適でしょう。要素が2つ以上でも、割合が極端に少ないものが含まれており、それを除けば比較対象となる要素は2つ、あるいは、3つであればよいでしょう。要は知りたい情報が視覚的に得られるか、で判断しましょう。
要素数が少なく構成比を知るだけなら円グラフがわかりやすいですね。構成比の推移を知りたい場合は100%積み上げ棒グラフを使う方がよいです。
100%積み上げ棒グラフ
内訳の比率を比較したい場合に使います。合計は意識せずにシェアのみを比較対象にする場合は100%積み上げグラフがわかりやすいです。
1957年と2022年で人口の男女構成比を比較しています。人口の総数には興味はなく、あくまで男女比がどう変わったのかをみるのであれば100%積み上げ棒グラフがわかりやすいですね。1957年は男性の方が多く全体の51.5%だったのに対して、2022年では男性の比率は49.1%で女性の方が多くなっているのがわかりますね。
積み上げ棒グラフ
合計と内訳の両方の比較をしたい場合に使います。合計と内訳の両方を比較する場合は、円グラフだと複数の円グラフを使うことになるのでわかりにくいですが、積み上げ棒グラフだと理解しやすいですね。縦軸に構成比、横軸に比較対象(例えば時系列など)とするとよいでしょう。
全体の総数も知りたい場合は積み上げ棒グラフがよいです。1957年と2022年を比較すると大きく人口が増えたのがわかりますね。
散布図
数量データ同士を掛け合わせ、データの散らばり具合を見ることができます。結果として2つの量に関係があるかどうかをみることもできます。散布図では2つの量の間に関係性の有無を示すだけで、因果関係があるかは別問題なので注意しましょう。
まとめ
今回はグラフの選び方について基本から解説しました。何を示したいのかという用途によって分類して、いくつかのグラフを紹介しました。同じ用途でもいくつかのグラフがある場合があります。そのグラフで何を示したいかによって、向き・不向きもあるので考えてグラフを使い分けるようにしましょう。
コメント