Det er gængs viden i mediedanmark, at rubrikker bliver bedre, hvis man bruger et kvarters tid med en kollega på at idéudvikle på dem. Men det har man bare ikke tid til. Det er en af grundene til, at vi på TV 2 Fyn (for) sjældent A/B-tester rubrikker.
I gennemsnit 1,6 om måneden mellem 2018 og 2022. Altså meget sporadisk. Derfor satte vi os i TV 2 Fyns R&D-afdeling for at teste, om kunstig intelligens kunne gøre det nemmere at få det gjort, forbedre vores rubrikker, ligesom vi ville teste hvordan AI fungerer som sparringspartner.
Med Open AI’s nye chatbot, ChatGPT, har vi en mulighed for at spare tid, ved at bede kunstig intelligens om at læse vores artikler og så finde på nogle gode, fængende overskrifter. Spørgsmålet er så bare, om resultatet er godt. Det har vi undersøgt i nærværende artikel.
Artiklen bygger på et forholdsvist lille sample size, og det kræver mere research at komme med mere definitive udmeldinger om AI og journalistik.
Baggrund og metode
ChatGPT er en chatbot udviklet af virksomheden Open AI. Botten udmærker sig ved, at man kan føre hele samtaler med den. Man kan altså komme med en forespørgsel, og hvis man ikke er tilfreds med svaret, kan man give den rettelser og få den til at tilrette sit svar, indtil man får noget man kan bruge.
Chatbotten er trænet med viden frem til 2021. En svaghed ved chatbotten er, at den kan give plausibelt lydende svar, som ikke er sandfærdige. I skrivende stund er det gratis at anvende ChatGPT, hvis man opretter en bruger.
Det skyldes, at virksomheden bag er ude efter feedback på deres model og derfor gerne vil have så mange som muligt til at bruge den. Der er dog også kommet en betalt pro-version til. Man kan læse mere om ChatGPTpå denne side: https://openai.com/blog/chatgpt/
Vores fremgangsmåde til denne undersøgelse var, at vi i en periode på i alt tre uger i december 2022 og januar 2023 løbende foretog A/B-tests på tv2fyn.dk med overskrifter genereret af ChatGPT.
Vi fodrede ChatGPT med både hele artikler fra tv2fyn.dk og opsummeringer af artikler og bad om, at chatbotten skulle foreslå et antal overskrifter. Hvis de første forslag ikke fungerede, bad vi chatbotten om at rette til.
For eksempel ved at sige, at en bestemt person eller et bestemt ord i artiklen skulle indgå i overskriften. ChatGPT var som udgangspunkt lydhør over for forslagene, men i nogle tilfælde løb den mod en mur og holdt op med at videreudvikle på overskrifterne. Ofte kunne vi bruge forslagene som udgangspunkt og så finpudse overskriften, inden vi A/B-testede ved hjælp af Chartbeat.
Efter at have foretaget testene, har vi brugt data fra Chartbeat til at undersøge, hvordan de AI-genererede overskrifter klarede sig i forhold til vores egne, ligesom vi har undersøgt, hvordan de klarer sig, holdt op imod Chartbeats globale statistikker for A/B-test.
Det er vigtigt at være opmærksom på, at vi i testen havde én original, menneskeskabt overskrift og to, der var skrevet i samarbejde med ChatGPT. Årsagen til, at der er tre i stedet for to rubrikker, er, at Chartbeat anbefaler mindst tre muligheder i A/B-test for optimale resultater.
Resultater og prompts
Der blev lavet i alt 46 A/B-test i testperioden. I 21 tilfælde vandt den AI-genererede overskrift. I 11 vandt den originale, og i 14 var der for tæt løb til, at der kunne udpeges en vinder.
Det betyder, at AI’en vandt i 46 procent af testene, den originale overskrift vandt i 24 procent af tilfældene, og i 30 procent at tilfældene var der ingen vinder.
De 14 test uden vinder havde alle det til fælles, at de havde meget lav click-through rate (1,71 procent i gennemsnit. Testene med vindere havde 4,48 procent i gennemsnit). Et lavt antal klik gør det svært for Chartbeat at udregne, hvad der er mest populært.
Kigger man kun på test, hvor der blev fundet en vinder, hedder fordelingen 65-35 i AI’ens favør. Justerer man for, at der - som tidligere nævnt - var to ChatGPT-overskrifter og kun en enkelt original i testene, ender vi på en fordeling, der hedder 48,8-51,2 i de originale overskrifters favør. Altså en lille fordel til journalister og redaktører over den kunstige intelligens.
Ifølge global data fra Chartbeat vil alternative overskrifter i gennemsnit vinde i omkring 65 procent af tilfældene, når nyhedshjemmesider begynder med A/B-test. (Det er dog uklart, om Chartbeats påstand om 65 procent inkluderer test uden vinder.)
Da vi ikke selv har lavet betydelige mængder A/B-test tidligere, kan vi ikke se, hvordan AI’en klarer sig i forhold til, hvordan vi ville klare os, hvis vi selv skrev alle overskrifterne. Det er samtidig vigtigt at holde sig for øje, at vi har at gøre med en lille sample size.
Fordelt over de tre ugers test gav det en samlet forøgelse af click-through rate på 59 procent. Altså var der mere end en halv gang flere, der klikkede på vores historier som følge af, at vi har brugt AI til at lave overskrifter til A/B-test.
Prompts og eksempler
Der er utroligt mange måder at få det ud af ChatGPT, som man ønsker, fordi hele idéen med den er, at man betjener den, som man ville føre en samtale. Man beder den om noget, den levererer.
Hvis man vil have tilpasninger, siger man det. Der er masser af andre måder at spørge på, men en god tommelfingerregel er at være så specifik som muligt. Hvis der er et ord, man vil have med, eller f.eks. tænker, at overskriften skal være i samme stil som dem på eb.dk, så skriv det til den. Følgende prompts har givet gode bud på overskrifter
Prompt 1
Find på ti spændende overskrifter til den nedenstående historie. Overskrifterne skal være mellem 30 og 60 tegn lange. De skal give læseren lyst til at klikke på historien. Historie: [OPSUMMERING AF ARTIKEL PÅ MELLEM FEM OG TI SÆTNINGER]/ [KOMPLET ARTIKEL]
Prompt 2
Opfør dig som en nyhedsredaktør. Din spidskompetence er at gøre overskrifter bedre. Jeg giver dig et eksempel på en historie, og så foreslår du ti spændende overskrifter. Rangér dem efter, hvilke du vurderer, vil få flest klik. [OPSUMMERING AF ARTIKEL PÅ MELLEM FEM OG TI SÆTNINGER]/ [KOMPLET ARTIKEL]
Prompt 3
Opfør dig som en nyhedsredaktør på [MEDIE] (f.eks. eb.dk, tv2.dk osv.) og find på ti overskrifter til denne historie. Rangér dem efter, hvilke du vurderer, vil få flest klik. [OPSUMMERING AF ARTIKEL PÅ MELLEM FEM OG TI SÆTNINGER]/ [KOMPLET ARTIKEL]
Prompt 4
Giv mig ti clickbait-agtige overskrifter til denne historie. Overskrifterne skal være sandfærdige, men give folk lyst til at klikke på historien. Artikel: [OPSUMMERING AF ARTIKEL PÅ MELLEM FEM OG TI SÆTNINGER]/ [KOMPLET ARTIKEL]
Prompt 5
Hvordan kan jeg gøre følgende overskrift mere engagerende? Skriv ti forslag på en mere engagerende version af overskriften og kom forklaringer på, hvad du har forbedret. Overskrift:[ORIGINAL OVERSKRIFT]
I nedenstående eksempel fik ChatGPT en forespørgsel om at skrive fem bud på spændende overskrifter til en artikel om, at tre investorer vil genåbne Fyns sommerland og satser på at få 100.000 gæster det første år.
To af overskrifterne blev skrevet sammen til bud 2, mens bud 3 kom direkte fra chatbotten. Bud 2 vandt A/B-testen. Den havde en click-through rate på 10,43 procent. Det er en forbedring på 171 procent i forhold til originalen.
Original rubrik | Fynsk forlystelsespark genåbnes med store ambitioner: - Vi satser på 100.000 gæster |
ChatGPT | Forladt forlystelsespark får nyt liv: Fyns Sommerland genåbner med ambitiøst mål |
ChatGPT | Fyns Sommerland vender tilbage og har ambitioner om 100.000 besøgende |
I næste eksempel fik ChatGPT en forespørgsel om at skrive en overskrift om, at fødevareskandaler i Kina førte til stor investering i fynske Fipros, men nu er kontrakten revet over, og de kinesiske investorer betaler en erstatning på 31 millioner kroner.
I bud 2 blev ”31 millioner” skrevet om til millionerstatning, men ellers blev der ikke ændret på overskrifterne. Bud 2 vandt med en click-through rate på 7,73 procent, hvilket var en forbedring på 103 procent.
Det er eksempler på A/B-tests, der er gået godt, men det understreger, at man skal finpudse de forslag, man får fra chatbotten for at få de bedste resultater.
Original rubrik | Punkteret kinesisk eksporteventyr giver millionerstatning |
ChatGPT | Kinesiske investorer betaler millionerstatning efter brud på kontrakt med fynsk firma |
ChatGPT | Kinesisk investering i dansk mejeri ender i kontraktbrud og erstatning |
Konklusion
Brug af ChatGPT kan gøre det nemmere at lave A/B-test. Selvom ChatGPT’s bud på overskrifter varierer kraftigt, så giver det den fordel, at man får en sparringspartner med virkelig kort responstid.
AI’en er god nok til, at vi kan øge click-through rate på vores artikler, så længe man sørger for at arbejde med de bud, man får. AI’en vandt 65 procent af testene, mens de originale vandt 35 procent. Justeret var det tæt på dødt løb mellem AI og originale overskrift.
Arbejdet med AI gav i løbet af tre uger en øget click-through rate på 59 procent.
A/B-test er næsten altid en god idé, men worklflowet kan gøres nemmere med ChatGPT. I stedet for at skulle bruge 15-20 minutters idéudviklingstid med kollegaer, kan man uden videre få en masse forslag til rubrikker ud fra artiklens indhold.
Teknologien er ikke der, hvor man kan regne med, at AI’en leverer perfekte overskrifter hver gang, så der er stadig brug for, at man kigger kritisk på de ting, AI’en foreslår. Både for om det er korrekt, og om det er fair over for kilderne.
Men når det er sagt, har man med ChatGPT, hurtigt ti forslag til rubrikker at gå ud fra. Derfra kan man kombinere og ændre til, hvad man vurderer, er de bedste rubrikker.
Dette er blot et tidligt blik på, hvordan kunstig intelligens potentielt kan hjælpe journalister i dagligdagen, og der er brug for mere research med større sample sizes for at kunne sige noget mere definitivt.
Perspektiver
Der er en række begrænsninger ved brugen af ChatGPT. Til denne test har vi brugt det offentligt tilgængelige research preview på https://chat.openai.com/chat, men det er der millioner af andre, der også bruger.
Det betyder, serverne nogle gange er overbelastede, og så er man ikke sikker på at kunne komme til. ChatGPT begrænser også antallet af requests, man kan lave inden for en time. Så selvom vi kan udspørge botten for at få bedre overskrifter, kan man ikke blive ved.
Hvis man stiller for mange spørgsmål i træk, kan der gå en lille time, før man kan få lov at spørge om mere. Derudover er der en begrænset længde på det svar, ChatGPT kan give. Det er ikke så relevant i forhold til overskrifter, men det kan være en udfordring, hvis man f.eks. beder den om at lave sproglige forbedringer på en længere artikel.
Der er stadig gratis adgang til ChatGPT, men Open AI introducerede 1. februar ChatGPT Plus, som er en betalt plan til 20 dollars om måneden. Ifølge virksomheden giver planen adgang til ChatGPT, selv når brugerantallet peaker, hurtigere responstider og prioriteret adgang til nye features.
OpenAI skriver på deres hjemmeside, at den gratis adgang fortsætter, men man undersøger muligheden for ”lower-cost plans” og virksomhedsabonnementer.
Leave a Reply