"Synthetische Daten bieten für Produkttests viele Vorteile"

Synthetische Daten, also Daten, die nicht tatsächlich erhoben, sondern (meist) mit Hilfe von Künstlicher Intelligenz erstellt werden, sind zurzeit häufig diskutiert. Ipsos möchte im Rahmen der Woche der Marktforschung den eigenen Ansatz zeigen, mit solchen Daten zu arbeiten. Vorab geht es im Interview um die Limitationen, die Herstellung und die erfolgversprechendsten Anwendungsfelder von synthetischen Daten.

Synthetische Daten sind aktuell viel diskutiert. Was verstehen Sie unter „synthetischen Daten“?

Mareike Debus und Lara Rentel: Bei Synthetischen Daten handelt es sich um künstlich generierte Daten, die mithilfe eines Modells erzeugt werden, das darauf trainiert wurde, die Eigenschaften und Strukturen von menschlichen Daten nachzubilden. Diese Daten imitieren also die statistischen Eigenschaften und Muster von realen Befragungsdaten. 

Es existieren verschieden Anwendungsbereiche für synthetische Daten. Dazu zählen auch Persona Bots oder Data Imputation. Der Schwerpunkt dieses Vortrags liegt auf der Data Augmentation bei Produkttests. Wir nutzen den Ansatz der synthetischen Daten, um Stichproben mithilfe synthetischer Konsumenten zu erweitern. Dabei gilt zu betonen, dass es sich also nicht um rein synthetische Daten handelt, sondern die Integration dieser in das menschliche Sample, das auf echten, neu erhobenen Konsumentendaten beruht. Dies verfolgt auch unseren Ansatz bei Ipsos, künstliche und menschliche Intelligenz stets zu kombinieren und sich nicht auf die reine künstliche Intelligenz zu verlassen.

So können wir kleinere Stichproben (zum Beispiel ab 50 Teilnehmenden) mit synthetischen Daten ergänzen und Resultate erzielen, die mit denen traditioneller Stichproben (200-300) vergleichbar sind.

Welche konkreten Vorteile bieten synthetische Daten bei Produkttests im Vergleich zu klassischen Marktforschungsdaten?

Mareike Debus und Lara Rentel: Da, wo es möglich ist, empfehlen wir weiterhin klassische Markforschungsdaten - insbesondere dann, wenn ein hohes Risiko besteht, wie zum Beispiel bei einer großen Änderung eines besonders erfolgreichen Produkts. 

Aktuell sind Produkttests allerdings oft zeitintensiv, teuer und logistisch aufwendig. Nicht immer können genügend Testprodukte für eine große Stichprobe hergestellt werden und insbesondere bei schwer erreichbaren Zielgruppen gestaltet sich die Forschung kosten- und zeitintensiv. Synthetische Daten ermöglichen es, schneller und günstiger Ergebnisse zu erhalten oder tiefer in die Analyse von spezifischen Zielgruppen einzusteigen. 

Und was sind potenzielle Missverständnisse bezüglich synthetischer Daten?

Mareike Debus und Lara Rentel: Ein Missverständnis könnte sein, dass wir Produkttests ausschließlich mit synthetischen Konsumenten durchführen. Wie oben eingangs beschrieben, nutzen wir für Produkttests ausschließlich eine Kombination aus neu erhobenen menschlichen Daten und darauf basierend generierten synthetischen Daten.

Bei der Generierung synthetischer Daten handelt es sich auch nicht um ein einfaches Kopieren der vorhandenen Daten oder „Aufblähen“ des Datensatzes. Die KI generiert stattdessen „ähnliche“ Konsumenten. Grundlage hierfür sind Wahrscheinlichkeiten, die aus den realen Daten der reduzierten Stichprobe (Seed-Sample) abgeleitet werden. Dies gewährleistet Datenvarianz und vermeidet statistische Probleme, die bei einer einfachen Datenduplikation auftreten können. Zusätzlich verfeinern und validieren wir das Modell mithilfe unserer Produkttestdatenbank.

Gibt es auch Grenzen dessen, was mit synthetischen Daten möglich ist?

Mareike Debus und Lara Rentel: Insbesondere bei Produkttests wird deutlich, dass die Möglichkeiten von synthetischen Daten begrenzt sind, da Künstliche Intelligenz (KI) Menschen nicht vollständig ersetzen kann. Die KI ist nicht in der Lage, das Leben so wie ein Mensch zu erfahren. Menschliche Erfahrungen und Bewertungen sind komplex, emotional, kontextbezogen und oft irrational. Zudem ermöglichen unsere fünf Sinne sensorische Erlebnisse, die insbesondere bei Produkttests essentiell sind. Die KI kann diese Dimensionen nicht abdecken. Um die gesamte Produkterfahrung abzubilden, müssen Daten daher 'humanisiert' werden, was die Einbindung echter Konsumenten erfordert. 

Abgesehen davon müssen wir – wie bei allen KI Modellen – grundsätzlich dem Risiko von Halluzinationen und Bias (z.B. durch kontextbezogene oder alte Trainingsdaten) entgegenwirken, um sicherzustellen, dass die Ergebnisse nicht verzerrt werden. Bei KI-Modellen ist es oft auch ein Problem, dass die Herkunft der generierten Inhalte nicht nachvollziehbar ist. Alldem begegnen wir mit dem Ipsos-Wertemodell „Truth, Transparency und Trust“ – eine Grundlage für den Umgang mit künstlicher Intelligenz, die alle unsere neuen Methoden erfüllen müssen. Das bedeutet Ergebnisse müssen wahr und relevant sein für die jeweilige Produktkategorie oder Marke und repräsentativ für die Zielgruppe. Außerdem muss deutlich sein, woher die Ergebnisse kommen und wie sie zustande kommen. In unserem Vortrag werden wir deshalb noch näher erläutern, wie das Modell genau funktioniert. 

Wie stellt Ipsos sicher, dass synthetische Daten qualitativ hochwertig und belastbar sind?

Mareike Debus und Lara Rentel: Plakativ gesagt gilt auch hier: Garbage in, garbage out. Wenn wir synthetische Daten für Produkttests generieren, dann hängt die Qualität der Daten maßgeblich von den für diesen Test erhobenen realen und menschlichen Forschungsdaten ab. Die Repräsentativität und Relevanz der menschlichen Stichprobe, des Seed Samples, ist ausschlaggebend für die Qualität der synthetischen Daten. Nur wenn das Seed Sample die Zielgruppe widerspiegelt, können die synthetischen Daten dies auch gewährleisten.

Zusätzlich wurden umfassende Validierungen durchgeführt, um zu beweisen, dass der Ansatz und das Modell funktionieren und belastbar sind.

Gibt es einen bestimmten Use Case, der das transformative Potenzial besonders gut zeigt? Und für welche Branchen oder Produktkategorien sehen Sie aktuell das größte Potenzial?

Mareike Debus und Lara Rentel: Wir werden in unserem Vortrag auf verschiedene Beispiele eingehen. Im Rahmen der Validierung des Ansatzes wurden für verschiedene Produktkategorien synthetische Daten erstellt und es gibt deshalb schon eine ganze Reihe von Use Cases. Wichtig ist, dass der Ansatz für die Produktforschung entwickelt und validiert wurde, das heißt für Studien, bei denen ein konkretes Produkt haptisch und sensorisch erlebbar und bewertbar ist.

Für andere Bereiche gibt es bei Ipsos weitere Lösungen, die synthetische Daten verwenden. In dem Vortrag von Dr. Markus Eberl „Trends – so what? Integriertes und AI-unterstütztes Innovationsmanagement“ wird ein Überblick gegeben, welche Lösungen es bei Ipsos aktuell schon gibt und auch, was in Zukunft ggf. noch folgt.

Wenn Sie eine Sache mitgeben könnten, die Teilnehmende nach dem Webinar unbedingt mitnehmen sollten – was wäre das?

Mareike Debus und Lara Rentel: Synthetische Daten bieten für Produkttests viele Vorteile. Wichtig ist allerdings, dass synthetische Daten niemals komplett die menschliche Erfahrung in all ihrer Vielschichtigkeit ersetzen können. Die Qualität der synthetischen Daten hängt deshalb maßgeblich von den zugrunde liegenden Trainingsdaten – den menschlichen Daten ab.

Erfahren Sie in unserem Vortrag detailliert, wie ein Ansatz für synthetische Daten aussehen kann und wie dieser auch validiert werden muss, damit es nicht nur ein Hype bleibt, sondern tatsächlich die Produktforschung revolutioniert.

Hier können Sie die Aufzeichnung des Webinars kostenlos anfordern!

Über die Personen

Mareike DebusMareike Debus arbeitet seit knapp zehn Jahren im Bereich Ipsos Innovation in der Betreuung von globalen und deutschen Unternehmen (Schwerpunkt Konsumgüter), sowie im Projektmanagement von Marktforschungsstudien in den Bereichen Produktforschung, Innovationsforschung und Verpackungsforschung.

 

Lara Rentel Lara Rentel verfügt über mehr als zehn Jahre Erfahrung in der quantitativen Marktforschung. Im Innovationsbereich von Ipsos leitet sie Marktforschungsstudien und begleitet globale und deutsche Unternehmen entlang ihres Produktentwicklungsprozesses – von der Identifizierung unerfüllter Konsumentenbedürfnisse über die Ideen- und Konzeptoptimierung bis hin zur Produkteinführung. Dabei ist sie auch mit der Einbindung KI-gestützter Ansätze vertraut.

Dieses Interview erschien am 19. Mai 2025 auf marktforschung.de. Das Gespräch führte Keno Henk.

Mehr zu

Konsumenten & Shopper