Denna tjänst är ett beslutsstöd i den kliniska vardagen och endast avsedd för läkare och sjuksköterskor med förskrivningsrätt.

Evidensbaserad medicin (EBM) – Tolkning av resultat

FÖRFATTARE

Professor, överläkare Per Wester, institutionen för folkhälsa och klinisk medicin/Umeå Universitet

Med dr, ST-läkare Mattias Brunström, institutionen för folkhälsa och klinisk medicin/Norrlands Universitetssjukhus

Docent, överläkare Bo Carlberg, Institutionen för folkhälsa och klinisk medicin/Umeå Universitet

GRANSKARE

Seniorprofessor Karl Swedberg, Medicinkliniken/SU/Östra Sjukhuset

UPPDATERAD

2022-02-21

SPECIALITET
INNEHÅLL

BAKGRUND


Studier av behandlingseffekt styr hur vi behandlar våra patienter. För kritisk granskning av sådana studier hänvisas till översikten "EBM - Kritisk granskning av behandlingsstudier”. Denna översikt fokuserar på hur resultaten från behandlingsstudier skall tolkas.

Ofta presenteras resultaten från behandlingsstudier som någon form av risk eller riskreduktion. Till detta följer ett precisionsmått, som exempelvis ett p-värde eller ett konfidensintervall. Denna översikt beskriver de vanligaste risk- och precisionsmåtten och hur dessa förhåller sig till varandra. Presentationen av de olika riskmåtten utgår från tabell 1.

  Behandling Kontroll
Hjärtinfarkt 60 100
Ej hjärtinfarkt 940 900
Totalt 1000 1000

Tabell 1. Risktabellen. Visar en hypotetisk studie där ett nytt läkemedel för att förebygga hjärtinfarkt studeras. Nedan anges hur respektive riskbegrepp räknas ut.



RELATIV RISK & RELATIV RISKREDUKTION

 

För att förstå begreppen relativ och absolut risk/riskreduktion är det viktigt att först förstå begreppet risk. Risken att drabbas av sjukdom är antalet personer som drabbas av sjukdom dividerat med det med totala antalet personer som studerats.

Exempel: Risken att drabbas av hjärtinfarkt i kontrollgruppen (tabell 1) är antalet deltagare med infarkt dividerat med det totala antalet deltagare i denna grupp, d v s 100/1000 = 0,1 = 10 %.

Den relativa risken är en kvot mellan två risker. Ofta presenteras den relativa risken för behandlingsgruppen jämfört med en kontrollgrupp. Den relativa risken är då risken i behandlingsgruppen dividerat med risken i kontrollgruppen.

Exempel: Den relativa risken att drabbas av hjärtinfarkt med behandling (tabell 1) är (60/1000)/(100/1000) = 6/10 = 0,6 = 60 %.

Ett alternativt sätt att presentera detta är som relativ riskreduktion. Den relativa riskreduktionen är skillnaden i risk mellan grupperna dividerat med risken i kontrollgruppen.

Exempel: Den relativa riskreduktionen med behandling är skillnaden i risk mellan grupperna (100/1000 – 60/1000 = 40/1000) dividerat med risken i kontrollgruppen (100/1000). Detta ger (40/1000)/(100/1000) = 4/10 = 0,4 = 40 %.

Ett snabbare sätt att räkna ut relativ riskreduktion, om relativ risk finns tillgänglig, är att subtrahera den relativa risken från 1, i exemplet 1-0,6 = 0,4 = 40 %.


Ofta presenteras resultaten från kliniska studier som just relativ riskreduktion. Detta är korrekt, och det mest rättvisa måttet vid jämförelser av studier med olika patienturval. Vid behandlingsbeslut i klinisk praxis bör det dock kompletteras med absolut riskreduktion och/eller numbers needed to treat (NNT).



ABSOLUT RISKREDUKTION OCH NUMBERS NEEDED TO TREAT

 

Den absoluta riskreduktionen, även kallad riskdifferens, är skillnaden mellan behandling och kontroll mätt i procentenheter istället för procent.

Exempel: Den absoluta riskreduktionen med behandling (tabell 1) är risken i kontrollgruppen (100/1000 = 0,1) minus risken i behandlingsgruppen (60/1000 = 0,06), d v s 0,1–0,06 = 0,04 = 4 procentenheter.

Den absoluta riskreduktionen ger en mer realistisk bild av patientnyttan med en behandling eftersom den också kommunicerar den underliggande risken att drabbas av sjukdom. Å andra sidan är värdena giltiga endast för en population med samma underliggande risk och behandlingstid som studiedeltagarna.

Exempel: I en annan studie är den underliggande risken att drabbas av hjärtinfarkt en tiondel av de redovisade värdena i tabell 1, d v s 10 av 1000 drabbats i kontrollgruppen och 6 av 1000 i behandlingsgruppen. Detta ger samma relativa riskreduktion (10/1000–6/1000)/(10/1000) = 40 procent. Däremot blir den absoluta riskreduktionen endast en tiondel så stor 10/1000–6/1000 = 4 promille.

Värden i enstaka procent eller promille kan vara svårt att förhålla sig till som kliniker, och ännu svårare att förmedla till en patient. För detta ändamål kan inversen av den absoluta riskreduktionen, numbers needed to treat (NNT), vara användbar. NNT anger hur många patienter som behöver behandlas under den tid som studien omfattat för att undvika en klinisk händelse.

Exempel: Den absoluta riskreduktionen med behandling (tabell 1) var 4 procentenheter, eller 0,04. Numbers needed to treat (NNT) är då 1/0,04 = 25. Detta innebär att 25 patienter behöver behandlas med det nya läkemedlet för att undvika en infarkt.

Det finns ingen enkel tumregel för när ett NNT kan anses acceptabelt eller för högt. Detta beror på faktorer som tillståndets svårighetsgrad, eventuella biverkningar av behandlingen, samt hälsoekonomi.



PRECISION

 

För varje skattning av risk som anges i en vetenskaplig artikel bör det också finnas ett mått på precisionen i denna skattning. Måtten på precision varierar, men har som gemensamt syfte att varna läsaren för fynd som kan bero på slumpen. Gemensamt för de olika precisionsmåtten är också att de bygger på antaganden om urval och distribution, samt att de är specifika för den statistiska modell som används.

Precisionen ökar med fler deltagare och fler händelser. Stora studier ger alltså mer exakta skattningar än små studier. Notera att precisionen inte säger någonting om bias. Detta kan vara ett problem, exempelvis i stora observationsstudier, där precisionen är hög men den interna validiteten kan svikta. Här riskerar vi resultat som är mycket exakta men där skattningen i själva verket avviker från verkligheten.


P-värde

P-värdet är det mest använda precisionsmåttet inom medicinsk vetenskap. Det anger sannolikheten att erhålla ett observerat resultat eller ett mer extremt resultat om nollhypotesen är sann. Om p < 0,05 för en given observation innebär det att sannolikheten att erhålla ett minst lika extremt resultat är mindre än 5 % om det i själva verket inte finns något samband. Just p < 0,05 har av tradition ofta använts som signifikansgräns. Balansen mellan risk för falskt positiva fynd och risk att avfärda verkliga samband har vid detta värde ansetts rimlig. Det bör dock noteras att gränsvärdet är godtyckligt och rationalen för att använda just < 0,05 är svag.

Definitionen av p-värdet har visat sig vara notoriskt svårtolkad och på grund av detta används resultaten ofta felaktigt. Det vanligaste problemet är att värdet tas från sin experimentella kontext och appliceras direkt på verkligheten. P = 0,05 tolkas då som att fynden i en studie med 95 % sannolikhet speglar verkligheten, vilket alltså är fel. För att kunna göra en sådan skattning krävs att man känner till sannolikheten för det observerade sambandet innan studiens genomförande (engelska prior probability). Sådana sannolikheter känner man i praktiken aldrig till, även om man ofta kan ha en känsla för dem utifrån tidigare studier eller klinisk erfarenhet.
 

Exemplen nedan illustrerar dels hur p-värden förhåller sig till verkliga sannolikheter, dels den statistiska bakgrunden till principen att oväntade resultat skall tolkas med största försiktighet.

Exempel 1: En klinisk studie testar en hypotes som lika gärna kan vara sann som falsk (prior probabiliy = 50 %). P = 0,05 stärker hypotesen. Sannolikheten att hypotesen stämmer ökar något (posterior probabiltiy = 71 %), men når inte de 95 % som är en vanlig feltolkning av p-värdet.

Exempel 2: En annan studie testar en osannolik hypotes (prior probability = 5 %). P = 0,05 stärker hypotesen men sannolikheten att hypotesen stämmer är fortsatt mycket låg (posterior probability = 11 %).


En stor svaghet med p-värdet jämfört med konfidensintervall (se nedan) är att det inte ger någon indikator på hur stor möjligheten var att förkasta nollhypotesen i den aktuella studien. Ett högt p-värde säger egentligen bara att urvalet är för litet för att kunna påvisa den observerade effekten.

Sammanfattningsvis gäller att ju lägre p-värde desto mer stärks hypotesen. Det finns ingen logik bakom att använda en godtycklig gräns för p-värdet för att skilja på signifikanta och icke-signifikanta resultat. En mycket sannolik hypotes ska inte förkastas p g a ett högt p-värde, samtidigt som en osannolik hypotes inte ska tas som sann bara för att p-värdet är lågt.


Konfidensintervall

Ett modernare och mer informativt sätt att presentera precision är med hjälp av så kallade konfidensintervall. Intervallet anger ett spann av värden inom vilket det sanna värdet återfinns med en frekvens som speglar en förutbestämd konfidensgrad. Om konfidensgraden bestäms till 95 % innebär det att 95 av 100 sådana intervall kommer att innehålla en korrekt skattning.

Exempel 1: En ny antitrombotisk behandling mot djup ventrombos minskar risken för återfall med 25 % (95 % konfidensintervall 21–30 %). Konfidensintervallet berättar att behandlingen med stor sannolikhet har god effekt då dess lägre gräns ligger långt ifrån noll.

Exempel 2: En ny operationsmetod minskar risken för komplikationer med 25 % (95 % konfidensintervall 1–44 %). Konfidensintervallet berättar att den nya metoden sannolikt är bättre än referensmetoden, men skillnaden kan vara betydligt mindre (eller större) än det angivna värdet.


Båda dessa exempel skulle kunna ha presenterats som p < 0,05. Tack vare användningen av konfidensintervall kan vi känna oss tämligen säkra på att behandlingen för DVT fungerar, samtidigt som vi är försiktigt positiva till den nya operationsmetoden.



STATISTISK VS KLINISK SIGNIFIKANS

 

Vid granskning av kliniska studier bör man alltid fundera över hur stor behandlingseffekten behöver vara för att anses kliniskt betydelsefull. Den skattade effekten och dess konfidensintervall bör jämföras mot detta värde.

Dels förekommer studier med mycket små p-värden och snäva konfidensintervall där den observerade skillnaden är alltför liten för att vara betydelsefull.

Exempel: Ett nytt blodfettssänkande preparat minskade den relativa risken att drabbas av hjärtkärlsjukdom med 6 % (95 % konfidensintervall 1–11 %). Intervallet innefattar inte noll och resultatet tolkades därför som statistiskt signifikant, men effekten är trots detta försvinnande liten.

Å andra sidan förekommer studier med höga p-värden och breda konfidensintervall som kan inrymma högst betydelsefulla effekter samtidigt som behandlingseffekten skulle kunna vara neutral.

Exempel: Att behandla patienter med lakunär infarkt till ett målblodtryck < 130 mmHg jämfört med 130–149 mmHg minskade risken för ytterligare stroke med 19 % (95 % konfidensintervall 36 % minskning till 3 % ökning). Konfidensintervallet spänner över noll och tolkades därför som icke-signifikant, men det innefattar också en potentiellt stor gynnsam effekt.

Det senare exemplet illustrerar en situation där det är lätt att dra slutsatsen att behandlingen är ineffektiv. Detta är lika inkorrekt som att dra slutsatsen att det finns en effekt. Den korrekta tolkningen är att studien hade för låg statistisk styrka för att dra någon av slutsatserna. Ingen evidens för effekt är inte samma sak som evidens för ingen effekt!


Referenser

Guyatt G, Rennie D, Meade MO, Cook DJ. Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice. Third edition. New York: McGraw-Hill Education - Europe; 2015.

Nuzzo, R. Scientific Method: statistical errors. Nature 2014:506, 150-152. Länk

Wasserstein RL, Lazar NA. The ASA´s statement on p-values: context, process, and purpose. The American Statistician. 2016: 70,129-133. Länk

COPYRIGHT © INTERNETMEDICIN AB

E-posta synpunkter till författaren info@internetmedicin.se

Prenumerera på våra nyhetsbrev