担当サービスのUXが有意に向上しているか評価してみた

2023-06-13UX

この記事は最終更新日から1年以上が経過しています。

はじめに

UI/UXの重要性は多くの人が理解していますが、その評価は主観的なものになりがちです。また、開発者がユーザー体験の向上を目的として実装したものが、必ずしも利用者が本当に求めていたものである保証もありません。そのため、UI/UXの向上に取り組みたいと考えていても、定量的な表現が求められる場では目標として設定することが難しいと感じる方もいるのでは無いのでしょうか。
そこで評価の方法の一つとして考えられるのがアンケート調査です。例えば、期間中に二度利用者にサービスの満足度に対して点数をつけてもらい、それぞれ結果の差を数字として目標に設定するというものです。

しかし、この方法には難点があります。それはアンケートを初めて実施する際、評価の基準を何点とするかが不明瞭なことです。模試の偏差値やTOEICの点数であれば、その数値の価値を知っている人が多いため「前回の結果から何点向上させる」という目標設定は妥当かもしれません。
一方、初めて実施するアンケートではどうでしょうか。同じように「前回の結果から何点向上させる」という目標設定は妥当とは言いづらいでしょう。また、仮にその尺度の平均点が分かっていたとしても、現在のスコアが平均を超えているか否か現時点では分からないことに変わりありません。目標を設定する側からすると手がかりの無い中で数字を決めることになりますし、目標を評価する側からしてもその点数がどのくらいの重みを持っているかが測りづらいのではないのでしょうか。

そこで今回は「t検定」という統計手法を用いて、「初回のアンケート結果の点数と2回目に実施した点数には有意差があるか（統計学的に意味のある差があるか）」という視点で、現在私がフロントエンド開発に携わっているサービスのUI/UXが向上しているかを評価してみたいと思います。

方法

調査対象

筆者の所属部署である次世代ビジネス推進部が開発している、NFT商品の入稿支援ツール「NFT申請画面」（以下管理画面とします）のUI/UX

調査期間

一回目
- 2022/12/19~2022/12/23
二回目
- 2023/03/27~2023/03/31

調査参加者

業務で管理画面を利用している方々にFY22下期中2回に分けてアンケート調査（使用した尺度は後述）のご協力をお願いしました。
なお分析方法の都合上、2回両方回答を頂けた方のみ分析の対象としています。

次世代ビジネス推進部内の利用者（管理画面の開発メンバー以外の運用者）: 2人（うち有効2人）
次世代ビジネス推進部以外の利用者（営業の方々）: 4人（うち有効2人）

使用した尺度

システムユーザビリティスケール（SUS）
- 引用: ユーザビリティの評価は何をどう計測すればいい？ | UX MILK
- 管理画面に合わせて一部設問を編集しています。

編集後の尺度

この管理画面を使用することで仕事が効率化すると思う
この管理画面は不必要に複雑だった
この管理画面は使いやすいと感じた
この管理画面を利用するには、サービス担当者のサポートが必要だと思う
この管理画面のさまざまな機能は上手くまとまっていると思う
この管理画面の機能は煩雑だと感じた
ほとんどの人がすぐ使いこなせるようになる管理画面だと思う
この管理画面は使うのがとても面倒だと感じる
自信を持って管理画面を操作できた
この管理画面を使いこなすには事前にたくさんの知識が必要だと思う

編集前の尺度

このWebサイトを頻繁に使用したいと思う
Webサイトは不必要に複雑だった
Webサイトが使いやすいと感じた
このWebサイトを利用するには、技術者のサポートが必要だと思う
このWebサイトのさまざまな機能は上手くまとまっていると思う
このWebサイトには矛盾がとても多いと感じた
ほとんどの人がすぐ使いこなせるようになるWebサイトだと思う
このWebサイトは使うのがとても面倒だと感じる
自信を持ってWebサイトを操作できた
このWebサイトを使いこなすには事前にたくさんの知識が必要だと思う

サービスの改善内容

詳細は割愛しますが、事前に予定されていた機能の実装に加え、第一回目のアンケートで利用者から寄せられた要望の一部の実装・改修が行われています。

使用した統計手法「t検定」について

結果の記述に移る前に、t検定について簡単な概要を説明しておきます。
t検定とは、仮説検定の一種になります。
仮説検定とは、「『とある仮説に対して、それが正しいのか否かを統計学的に検証する』という推計統計学の手法の一つ」です（引用: 仮説検定とは？初心者にもわかりやすく解説！ | AVILEN AI Trend）。

求めた結果が有意かどうかを判断するには、t検定で算出されるp値と呼ばれる値を見ます。一般的にp値が0.05を下回ると「有意」、0.05以上0.10以下だと「有意傾向」と判断されます。
今回はt検定の中でも「対応のあるt検定」と呼ばれる方法を用いて評価を行います。

結果

アンケート結果（SUSのスコア）の平均値が一回目と二回目で統計的に有意に向上しているか確かめるために片側検定の対応のあるt検定を行ったところ、第一回目のスコア（平均値58.75、標準偏差28.53）と第二回目のスコア（平均値72.50、標準偏差16.30）の間には有意傾向が見られました（t(3) = 1.73, p = .09）。

※値は小数点第三位で四捨五入を行っています。

考察

検定の結果、一回目のスコアと二回目のスコアの差は「有意」とは認められませんでしたが、向上している傾向にあるといえることがわかりました。
また、SUSのスコアは平均68となっているのですが、それと比較すると一回目のスコアは下回っているものの二回目のスコアは上回るという結果になりました。

今回はデータ数が少なかったこともあり正しく検定出来るか不安が残っていましたが、有意とはいかずとも有意傾向が出たことや、一回目と比べて二回目では平均値が増加しているだけでなく標準偏差が減っている（スコアのばらつきが狭まっている）ことから、今期行われた改善によって一定のUXの向上が見られたと言って良いのではないでしょうか。

今後の課題

今後管理画面の利用者が増えていった場合、今回のように利用者全体の満足度を測るだけでなく、利用者の属性ごとに効果的なUXの向上が行われているかという視点での評価も必要になってくると言えるでしょう。
また、二回目の測定では比較的高いスコアを出すことが出来ましたが、改修によってSUSスコアが下がることの無いよう、引き続き今回と同じ形式でアンケートを実施し効果測定を継続していくことが重要だと考えています。

おわりに

学生時代ぶりに統計処理を行ったので、処理や解釈に一部あらがあるかもしれません。今回行った分析はEXCELで簡単に出来るので、興味がある方はぜひ調べて検証してみてください。

今回行った分析によって今後の課題も明らかになりましたが、アンケート調査をサービス内で初めて実施したことやその結果を分析する試み自体にある程度の価値があると考えているため、今後の改善に向けての良い材料となったと感じています。
引き続き、担当サービスのUI/UXの向上に向けて情報収集と改善を続けていきます。