- データ分析を始めたいが特に使うツールが決まっていない方
- Power BIでどんなことができるか知りたい方
- Power BIを使い始めたばかりで基本から学びたい方
▶ 中間テーブルを作ってリレーションシップの設定をする方法はこちらをご覧ください
▶ カレンダーテーブルの作成方法はこちらの投稿をどうぞ
はじめに
アンケート結果を効率的に集計・分析したいと思ったことはありませんか?特に、チェックボックスの複数選択形式やラジオボタンの単一選択形式のアンケートデータを扱う場合、どのように整理し、視覚化するのが最適か迷うことがあるかもしれません。この記事では、データ分析初心者の方にも分かりやすいように、PowerBIを使ったアンケート集計の基本から応用までを丁寧に解説します。データの準備から、視覚的に伝わるグラフの作成まで、一緒に学んでいきましょう!
サンプルデータ
今回は次のようなデータを使って集計をしてみることにします。

No
各回答者を一意に識別するための番号です。例えば、”1″ は1番目の回答者を示します。重複しない値で管理します。
好きな果物
各回答者が好きな果物を回答した結果を示します。単一選択(ラジオボタン形式)で選んだ内容が記録されています。今回の選択肢は、りんご、バナナ、オレンジの3つです。
趣味
各回答者が趣味として選んだ活動を示します。複数選択可能なチェックボックス形式で回答された項目です。複数の趣味がある場合は、コンマ(”, “)で区切って記載されています。選択肢はスポーツ、読書、料理、旅行です。
年齢層
- 回答者の年齢範囲を示します。年齢ごとにグループ化され、集計や分析時に役立つカテゴリとなります。選択肢は、18-25歳、26-35歳、36-45歳、46-55歳となります。
ちなみにデータは手入力しなくても、CopilotやChatGPTなどに依頼すると簡単に作ってもらえます。私は以下のようなプロンプトでデータを作成しました。
No, 好きな果物、趣味、年齢層、の列を持つサンプルデータを作ってください。Noは識別番号で1から順に採番してください。好きな果物は、リンゴ、バナナ、オレンジから一つ選択したデータ、趣味はスポーツ、読書、料理、旅行の4つの選択肢から複数選択可能で選択されたデータ、年齢層は18-25歳、26-35歳、36-45歳、46-55歳の中から選択されたデータとします。レコード数15でコピー可能な形式でデータを提供してください。
すると、こんな感じでデータを提供してくれます。

チェックボックス形式の集計方法
アンケート分析では、チェックボックス形式のデータを扱う場面が少なくありません。この形式は、複数の回答が選択できるため、回答者の興味や選好を幅広く把握できるという利点があります。しかし、データ分析時には、その特殊な構造が原因で困難を感じることもあるでしょう。集計の仕方を丁寧に解説していきます。
複数選択データを扱う際の注意点
アンケート分析において、チェックボックス形式のデータは回答者が複数の選択肢を同時に選ぶことができるという特徴があります。この形式は、多様な情報を得ることができますが、データ集計や分析の際にはいくつかの注意点を押さえておく必要があります。
1. データ構造の把握
チェックボックス形式のデータは、回答が1つのセルにまとめられていることが多く、「選択肢1、選択肢2、選択肢3」のように複数の値がコンマなどで区切られて格納されます。この構造は視覚的にはわかりやすいですが、直接集計や分析を行うには不適切です。まずはデータを展開して各選択肢を個別に扱えるように整形する必要があります。
2. 重複カウントを防ぐ
複数選択可能な回答では、1人の回答者が複数の項目を選ぶことがあります。その結果、ある選択肢のカウントが回答者数を超えることがあり得ます。この特性を理解せずにデータを扱うと、「回答者数=選択肢の合計」という誤解を招く可能性があります。分析では、「選択肢ごとの選択数」と「回答者数」を明確に分けて扱う必要があります。
3. 欠損値や誤入力の対処
複数選択のデータでは、まれに回答者が何も選択しない場合や無効な入力(例:「その他」などの曖昧な回答)が含まれる場合があります。欠損値がある場合は、分析においてどのように扱うか事前にルールを設定しておくことが重要です。無効な入力は正確な分析を妨げる可能性があるため、適宜フィルタリングやデータの整備が必要です。
4. 選択肢間の関係性を考慮する
複数選択の場合、選択肢同士が関連性を持つことがあります(例:「スポーツ」と「アウトドア活動」)。これらの関係性を把握することで、より深い洞察が得られる場合があります。例えば、「特定の年齢層ではスポーツと読書を組み合わせて選ぶ傾向がある」などのトレンドを分析することができます。
ダミー変数の活用や列展開の手順を解説
チェックボックス方式のアンケートデータを効率的に集計・分析するには、データを整形しやすい形式に変換することが重要です。その中でも特に有効な手法が「列展開」と「ダミー変数の作成」です。本記事では、これらの手法を初心者向けにわかりやすく解説します。
1. 列展開とは?
チェックボックス形式のデータは、通常、1つのセルに複数の選択肢がコンマやスペースなどで区切られて格納されています。この形式では、各選択肢ごとに回答数を集計するのが難しいため、列展開(PowerBIでは「アンピボット」とも呼ばれます)を行い、1行に1選択肢だけが記録される形に変換します。
2. ダミー変数とは?
列展開だけでは、特定の選択肢がどの程度選ばれたかを簡単に集計することが難しいため、ダミー変数(One-Hot Encoding) を活用します。ダミー変数では、各選択肢を個別の列として展開し、選択された場合に「1」、未選択の場合に「0」を記録します。この形式に変換することで、各選択肢の選択回数を簡単にカウントできるようになります。
3. PowerBIでの操作手順
以下はPowerBIを使用して「列展開」と「ダミー変数の作成」を行う手順です:
1. データをPowerBIにインポート
- ExcelやCSVファイルなどからアンケートデータをインポートします。
2. Power Queryで列展開を行う
- データを編集モードにし、チェックボックス形式の列を選択。
- メニューの「列の分割」機能を使用してコンマ(
,
)で分割。 - 分割後、再度列を選択して「列をアンピボット」により行形式に展開します。
3. ダミー変数を作成
- Power Queryの「条件付き列の追加」機能を使用して、各選択肢ごとに列を作成。
- 条件付きルールを設定し、「選択肢が一致する場合=1、それ以外=0」を割り当てます。
4. データを確定してレポートに戻る
- 整形したデータを保存し、各選択肢ごとのカウントやグラフ作成に利用します。
4. 注意点とコツ
- 選択肢の整合性を確認:列展開やダミー変数作成時にスペルミスや余分なスペースがあると正しく処理されません。
- データ量に注意:選択肢が多い場合、ダミー変数の列が増えすぎる可能性があります。その際は、選択肢をグループ化するなど工夫が必要です。
実際の作業手順
では、実際に先ほどのサンプルデータを使って集計してみましょう。まずはPowerBIへのデータの取り込みです。

まず、ホームタブの「データ」リボン内にある「データの取得」のプルダウンメニューから「テキスト/CSV」を選択します。ファイル選択のダイアログが表示されるので、ファイルを指定します。

今回は「アンケート分析.csv」というファイルを指定しました。すると、ファイル名でダイアログが表示されます。ここで「データの変換」を選択します。

Power Queryエディタが開くので、まずは各データの型やクエリの名称を設定しましょう。この辺のやり方がわからない場合は、以下の投稿を参考にしてください。
▶ Power BI:データを読み込む方法を基本から解説
クエリの名称はクエリの設定のプロパティ→名前のところで設定します。

チェックボックス形式の選択肢の処理
ここからチェックボックス形式の設問を集計するための処理をしていきましょう。今回のデータでは「趣味」の設問がチェックボックス形式でした。

まずはこの列に入っている「、」区切りのデータを分離しましょう。「趣味」の列を選択した状態で「列の選択」→「区切り記号による分割」を選択します。次に表示されるダイアログで区切り記号を指定します。通常よく使われる区切り記号はあらかじめ用意されていますが、区切り記号を指定することもできます。

今回は「、」なので、カスタムで「、」を指定します。すると、次のようにデータが分割されます。

次に分離したデータ列をアンピボットします。次のように対象の列を選んで「変換」メニューの「任意の列」リボンから「列のピボット解除」をクリックします。

すると次のようにデータが処理されます。

列名をわかりやすく変更しておくとよいでしょう。ここでは「属性」の列は削除して、「値」の列を「趣味」という列名に変更しておきます。

ここまでできたらデータを取り込みましょう。

「ホーム」メニューから「閉じて適用」を選択するとデータを取り込むことができます。これで準備ができました。

では早速可視化していきましょう。集合横棒グラフで描画してみましょう。

まずは「視覚化」から「集合横棒グラフ」を選択します。すると、レポート領域に空のビジュアルができます。

また、「視覚化」領域の下部に「Y軸」「X軸」「凡例」の設定欄が現れます。

横棒グラフなのでここでは、Y軸に「趣味」、X軸に「No」を設定してみましょう。すると、次のように簡単に可視化されます。

簡単ですね。でも、これだけでは面白くないですね。凡例に「年齢層」を追加して、年齢層ごとに特徴があるかを見てみましょう。

全体的にスポーツを趣味とする人が多かったですが、そのなかでも36-45歳の方が特に多い。読書を趣味とするのは、18-25歳の若い世代が多い、というのが見てすぐにわかりますね。
実際にどのくらいの数であるかを知りたければ、「視覚化」から「マトリクス」を選択します。

ここで行に「趣味」、列に「年齢層」、値に「No」を指定します。

すると、次のように集計されます。

ラジオボタン形式の設問の集計方法
アンケートで使用されるラジオボタン形式は、各設問で1つだけの選択肢を回答者が選ぶ単一選択形式を特徴としています。この形式は、集計が比較的シンプルで、各選択肢の分布を正確に把握しやすいのが利点です。
例えば「好きな果物」という設問で「リンゴ」「バナナ」「オレンジ」の中から1つを選んでもらう場合、選ばれた選択肢の数を集計し、それぞれの割合を算出することで回答傾向を理解できます。
ラジオボタン形式の設問では、先ほどのチェックボックス形式の設問のように複雑な前処理は必要ありません。各選択肢の集計して特徴が現れたら、その要因となりそうなほかの設問を凡例に設定したり、フィルタをかけて分析していくとよいでしょう。
まとめ
アンケートデータの分析は、設問形式によって適切なアプローチを選ぶことが重要です。ラジオボタン形式の設問では、各選択肢の集計が簡単に行える一方で、チェックボックス形式の設問では、複数回答の特性を踏まえた注意深い処理が求められます。具体的には、回答データをまず分離し、続いて列のアンピボット処理を行うことで、正確な集計が可能になります。最初は複雑に感じるかもしれませんが、繰り返し実践することで次第に慣れていくはずです。今回ご紹介した手順を活用して、データ分析のスキルをさらに磨いていきましょう!
コメント