合成データによる製品テストの力
合成データ(Synthetic Data)は、シミュレーションやデータ補強を可能にすることで、医療から金融サービス、自動車に至るまで、さまざまな業界に革命をもたらしています。イプソスでは、合成データが市場調査、特に製品テストの分野にまったく新しい可能性をもたらすと考えています。しかし、多くの企業は合成データの品質やその評価方法についてまだ確信が持てていません。
このIpsos Viewsペーパーでは、弊社の専門家が高品質な合成データを作成・評価するための推奨事項を提供し、合成データを製品テストに、どう具体的に適用できるかを探っています。
合成データを生成し、評価する
現実世界のデータを効果的に模倣した合成データを生成するには、人工知能(AI)モデルをまず、関連する現実世界のデータで訓練する必要があります。イプソスの「AIを人間化する (Humanizing AI)」シリーズの最初のペーパーで述べたように、AIは単なるアルゴリズムであり、訓練されるまではそれ自体に知性はありません。学習データから学習することで、AIは私たちが連想するような知性を獲得するのです。
生成AIやLLMとの違い
合成データは生成AIやLLMによって作成される「結果」や「出力」です。
生成AIとLLMは合成データを作成するための「手段」や「技術」です。
つまり、生成AIやLLMは合成データを生成するためのツールであり、合成データはそれらのツールによって生成された人工的なデータセットです。
合成データ活用のアプローチの種類
これらのアプローチは、それぞれ異なる状況や目的に応じて適用され、データの質と量を向上させるために使用されます。
データ拡張
既存のデータセットに合成データを追加して、より包括的なサンプルを作成します。この方法では、統計的整合性を維持しながらデータセットを拡大します。
データの補完と融合
既存の情報を使用して、欠落しているデータポイントを補完します。これにより、不完全なデータセットを完全なものに近づけることができます。
生成AIエージェントとペルソナボット
消費者セグメントを模倣するカスタマイズされたデジタルアシスタントを作成します。これらは合成された反応から洞察を提供します。
完全合成データ
完全に人工的なサンプルを使用します。これは合成的に作成された回答者で構成されています。
合成データを生成する際の重要なポイント
現実世界のデータを効果的に模倣する合成データを生成するには、まずAIモデルを現実世界のデータでトレーニングする必要があります。AIは単なるアルゴリズムであり、トレーニングされるまでは独自の知性を持ちません。AIはトレーニングデータから学習することで、私たちが知能と認識する能力を獲得するのです。
合成データの評価方法
評価プロセスもシンプルです。合成数値データは、少なくとも、一般的な統計的尺度で現実世界のデータを反映する必要があります。合成データが人間のデータに近いほど、それを使用するときに想定されるリスクは少なくなりますが、合成データはあらゆる面で現実世界のデータを完全に模倣することは決してできないため、常に何らかのリスクが存在します。
そのためある程度のリスクを受け入れられる場合にのみ合成データを使用すべきです。
なぜ製品テストで合成データを使用すべきなのか?
市場調査以外では、合成データの多くの用途は匿名性(機密性を保持するために医療データを匿名化するなど)に重点を置いていますが、市場調査では、多くの企業が求めている主なメリットは、現実世界のデータを収集することによるコストと時間の節約です。
市場調査の中でも製品テストは製造、配送、サンプリングのコストがかかることから、製品テストの参加者数を減らすと大幅な節約につながります。
合成データを活用して製品をテストしたイプソスのインサイト
製品体験は本質的に人間的です。AIだけでなく、人間が製品に対して感じる五感、感情、期待、あるいは背景の影響を捉えることはできません。
調査の目的と課題
合成データを製品テストに適用するイプソスの目標は、人間の入力を完全に置き換えることではなく、データを補強することです。
課題は実行可能な結果を確保するために合成データと並行して製品をテストするために必要な人間の調査の対象者の最小数を確立することでした。イプソスのイノベーションチームは2つの調査を実行しました。
調査の結果
イプソスは、全人間のデータセットから得られた結果と合成データで拡張されたデータセットから得られた結果を比較することにより、結果を検証しました。調査の詳細は、インフォグラフィック(英語)をダウンロードしてご覧ください。
この結果から、総じて合成データは機能することがわかりました。2つのデータセットは差異を示しましたが、テストをしたすべてのデータセットで同じビジネス上の決定につながりました。
まとめ:合成データは大きな可能性があるが、人間の経験は代替不可能

合成データは人間にはなり得ない
AIだけでは、五感、感情、期待、コンテキストを組み合わせた製品体験を再現することはできません。
精度はトレーニングデータによって決定する
合成データの価値は良いか悪いかではありません。合成データの精度は、複製しようとしているデータの違いやAIに学習させる現実世界のデータの代表制など多くの要因によって決まります。合成データの使用は、関連するリスクと利点を考慮して戦略的に行う必要があります。
正確であれば、製品テストに力を発揮できる
合成データは市場調査の俊敏性を高めることができるため、製品テストなどのリソース集約型の分野に最適です。コストの削減、時間の節約に加え、詳細なサブグループ分析にも役立ちます。
また、「AI時代の製品開発革命:消費者ニーズを捉えたイノベーションの実現方法」と題したオンデマンドウェビナーも無料で配信しています。ご興味がある方は以下からご視聴ください。