Mostrando las entradas con la etiqueta medicina basada en la evidencia. Mostrar todas las entradas
Mostrando las entradas con la etiqueta medicina basada en la evidencia. Mostrar todas las entradas

17 de julio de 2021

GRADE para dummies

La mayoría de quienes leerán esto seguramente nunca harán una valoración con esta metodología, pero si son médicos o enfermeros, leerán guías de práctica clínica que la utilizan como el modo de valorar la evidencia. Por ello, y al menos por una vez, será bueno entender de que se trata, ya que su uso se ha universalizado. 

Formas de evaluar la certeza de la evidencia han existido por muchos años (SIGN, Oxford, etc.) pero desde hace más de 10 años se va imponiendo, por consenso, el modelo Grading of Recommendations, Assessment, Development and Evaluation (GRADE). 

En GRADE la certeza de la evidencia se clasifica, inicialmente, en alta si proviene de estudios experimentales o baja, si proviene de estudios observacionales; posteriormente, según una serie de consideraciones, como se ve en la imagen, la evidencia queda en alta, moderada, baja y muy baja.

Cinco factores pueden disminuir la certeza de la evidencia: 

1. El riesgo de sesgo en el diseño y ejecución del estudio: Así, randomización insuficiente o incorrecta, falta de enmascaramiento, pérdidas importantes de seguimiento, análisis sin intención de tratar y ensayos acabados antes de tiempo.

2. Inconsistencia de los resultados: cuando los resultados muestran amplia variabilidad o heterogeneidad no explicada. Particularmente si unos estudios muestran beneficios sustanciales y otros ningún efecto o incluso perjuicio.

3. Incertidumbre acerca de que la evidencia sea directa: Siguiendo el método PICO (Pacientes, Intervención, Comparación, Outcome o resultado en español) puede ocurrir con los pacientes estudiados (diferencias en edad, sexo o estadio clínico); o con la intervención, en caso de que ésta sea parecida pero no idéntica; o con la comparación que se realiza; o con los resultados, si se comparan unos a corto plazo y otros a largo plazo, etc 

4. Imprecisión: tiene lugar si los intervalos de confianza son amplios, las muestras pequeñas, o los eventos son pocos.

5. Sesgo de publicación o notificación: cuando existe alta probabilidad de estudios no reportados, principalmente por ausencia de efectos, o no se han incluido todas las variables relevantes de resultado.

Mientras que otros ítems resaltan la certeza de la evidencia:

1. Fuerte asociación: hallazgos de efectos relativos RR>2, o < 0,5 en estudios observacionales sin factores de confusión. Muy fuerte asociación en estudios experimentales tal que los hallazgos de efectos relativos RR u OR > 5, o <0,2 basados en estudios sin problemas de sesgo o precisión.

2. Existencia de un gradiente dosis-respuesta

3. Evidencia de que todos los posibles factores de confusión o sesgos se han considerado.

Esto analiza la calidad de la evidencia, pero la fortaleza de una recomendación basada en GRADE se sustenta además en factores como: el balance riesgo-beneficio, los valores y preferencias de pacientes y profesionales, y también una adecuada costo-efectividad en las acciones. Aunque no siempre existen estos tipos de estudios en la población donde pretendemos implementar una guia clínica. Las recomendaciones podrán ser a favor o en contra, pero sustentados en determinado nivel de evidencia.

Existen en el mundo varios capítulos de GRADE, este año se ha habierto uno en el Cono Sur y una de sus primeras actividades es la publicación de "10 papers esenciales, para usar GRADE, sin ser metodólogo". Los cuales iremos agregando, de modo asincrónico con el original, a medida que se publican, hasta ahora los primeros: 

  1. Guía de Trombosis de la Sociedad Americana de Hematología, pero aplica a cualquier guía desarrollada con la metodología GRADE [PDF]
  2. Los inicios de GRADE. Se trata de un paper práctico, pero también con una importancia histórica, ya que es el primer paper oficial del GRADE Working group. [British Medical Journal][PDF]
  3. Sobre la certeza de la evidencia, antes llamada calidad de la evidencia. [PDF]
  4. Desde una pregunta clínica a la evidencia y desde la evidencia a la recomendación. [PDF]
  5. Sin un buen diagnóstico no hay buen tratamiento. Métodos diagnósticos. [PDF]
  6. Formulación de una pregunta clínica. [PDF]
  7. Las recomendaciones de buenas prácticas sirven para situaciones excepcionales, cuáles? [PDF]
  8. La diferencia entre evidencia y opinión de expertos [PDF
  9. Como presentar los resultados de un conjunto de evidencia en una tabla. [PDF
  10. Tomando decisiones con evidencia insuficiente [PDF]

Otros recursos GRADE se pueden obtener desde el sitio de Evalmed, un grupo de trabajo liderado por Galo Sanchez en España y con mucha producción a través de los años, ya sea creando herramientas, videos, presentaciones y evaluaciones a las que se puede acceder directamente desde su página.

Otros recursos

Base internacional de Guías GRADE. Un recurso muy valioso aqui



 Referencias

Grading quality of evidence and strength of recommendations doi:10.1136/bmj.328.7454.1490

17 de marzo de 2021

Diseño de preguntas clínicas

En 1995, Richardson et al publicaron una editorial en la revista ACP Journal Club en el que señalaban que toda pregunta bien elaborada debia estar respaldada por dos premisas. La primera es que debía ser relevante al problema identificado y la segunda es que la pregunta debe articularse de tal modo que facilite la búsqueda de una respuesta precisa y exhaustiva.

Los autores propusieron entonces una estructura especial integrada por cuatro elementos bien diferenciados, y que aun con variaciones ha permanecido en el tiempo. Los cuatro elementos son hoy conocidos por su acrónimo PICO, que permite recordarlo más fácilmente, donde cada uno significa:

P: se refiere a las características del paciente o grupo de pacientes (ej. en personas de más de 80 años), o bien el Problema de salud (diabetes, hipertensión arterial, etc.)

I: al tipo de Intervención principal a considerar. Puede ser un tratamiento, una práctica preventiva, diagnóstica o una exposición al riesgo.

C: contra que se comparó. En general los estudios suelen compararse contra placebo si no hay un tratamiento instalado. Aunque en muchas intervenciones no se dispone de una intervención para comparar.

O: por Outcome o resultado en inglés. Los resultados se pueden valorar globalmente de dos formas. Aquellos que están orientados a parámetros fisiopatológicos, como disminución de la tensión arterial, que conocemos como Disease Oriented Evidence (estudios DOE), o aquellos orientados a la mortalidad, calidad de vida, etc que son conocidos como Problem Oriented Evidence that Matters (estudios POEMs). Siempre que se pueda elegiremos a estos últimos, aunque no son los más comunes de encontrar. 

Esta estructura, seguramente la más exitosa, no es la única. Booth et al en 2004 introdujo un modelo de preguntas para las revisiones sistemáticas en el que también usó acrónimos: SPICE. En dónde las letras se correspondieron con Scenario (escenario o contexto de un estudio), Perspective (la perspectiva descripta por diferentes valores y actitudes), Intervention, Comparation y Evaluation. Aunque los mismos autores aseguraron que no todos los elementos de las preguntas se aplican en cada revisión.

Con el ánimo de encontrar propuestas para aplicarlas a metodologías cualitativas, u otras disciplinas, Cooke diseño un esquema basado en el acrónimo SPIDER, donde cada letra significa: S (muestra, en la investigación cualitativa se suelen usar muestras más pequeñas donde los resultados no están orientados a ser generalizados a la población), PI (fenómeno de interés; la investigación cualitativa explora el como y el porqué de ciertas experiencias, comportamientos y decisiones), D (diseño; en referencia al marco teórico a usar), E (evaluación de los resultados, sean estas opiniones o actitudes) y R (por el tipo de investigación (cualitativa, cuantitativa, mixta). Según los autores este tipo de búsqueda sirve como estrategia para la búsqueda tanto de estudios cualitativos como cuantitativos.

Como sea, han aparecido más estrategias que las de PICO, pero esta estructura de preguntas ha sido tan exitosa, ya sea por ser la primera, la más difundida, o la más simple, que varias grandes basos de datos de búsqueda biliográfica lo han incorporado también como forma de búsqueda. 

Motores de búsqueda utilizando la estrategia PICO han sido incorporados por la bibilioteca del Congreso de los Estados Unidos (Pubmed), Trip Medical Database, o plataformas como L.OVE, y recientemente agregado al buscador de la biblioteca de la Colaboración Cochrane. En lo personal prefiero usar estas bases de datos junto a la forma tradicional porque no siempre los resultados son los mismos. Pero sin dejar de usar la estrategia PICO cuando uso la base de datos habitual. La limitación que tienen estas y todas las bases de datos es que la búsqueda debe hacerse en inglés. Por suerte para todos los teclados suelen ser predictivos, al menos en Pubmed, y aun así si está mal escrito suele darle una sugerencia mejor. 

También me ha servido más de una vez para sintetizar en un modo sistemático la evidencia proveniente de algunos ensayos clínicos. No hay duda que este diseño de las preguntas clínicas, optimizado por preguntas de tipo POEM y provenientes de estudios con un diseño adecuado, resultará en una menor cantidad de resultados o estudios encontrados, pero justamente sirven para gestionar mejores búsquedas orientadas a la mejor evidencia científica disponible, dentro de la imposible multitud de datos e información que nos inundan diariamente.

Referencias

1. Otras variantes de la pregunta PICO pueden encontrarse en este artículo: Martínez Díaz Juan Daniel, Ortega Chacón Verónica, Muñoz Ronda Francisco José. El diseño de preguntas clínicas en la práctica basada en la evidencia: modelos de formulación. Enferm. glob. [Internet]. 2016 Jul [citado 2021 Sep 11] ; 15( 43 ): 431-438. Disponible en Scielo

2.  Richardson WS, Wilson MC, Nishikawa J, Hayward RS. The well-built clinical question: a key to evidence-based decisions. ACP J Club. 1995 Nov-Dec;123(3):A12-3. PMID: 7582737.

Artículos relacionados

2 de octubre de 2016

Como leer articulos cientificos en medicina

En 1994 el British Medical Journal publico una serie de articulos de Trisha Greenhalgh (médica general en Inglaterra y experta en medicina basada en la evidencia) con el objetivo de difundir mejores habilidades para leer y entender un articulo cientifico. Aunque no era el objetivo inicial de esta entrada, antes de poder hacer eso, hay que encontrar un artículo. Hoy seguramente será más fácil por el acceso a internet, pero la libre disponibilidad de los estudios clinicos full text sigue siendo una limitante en varios paises. No sólo es imposible, sino que tampoco es necesario leer todo lo que está publicado, sino los que más se adecuan a nuestra búsqueda, la cual debe orientarse a la mejor evidencia clínica disponible existe. Para ello necesitamos conocer cuales son las bases de datos que debiéramos revisar, y también establecer un tipo de estrategia para esa búsqueda. 
La estrategia más utilizada suele ser PICO. Un acrónimo que se dió a conocer en 1992, y que pretende recordarnos que primero debemos establecer sobre que Población, Problema de salud, o tipo de Pacientes queremos buscar, luego que tipo de Intervención buscamos (prevención, tratamiento, rehabilitación, o el mismo nombre de la intervención), le podemos agregar una Comparación (otro tratamiento o placebo, aunque esto no parece relevante en las búsquedas), y finalmente el tipo de Outcome, o resultado en nuestro idioma, que puede ser DOE o POEM. En estudios de efectividad elegiríamos este último. 
Por ejemplo: si queremos conocer la mortalidad de la azitromicina en las neumonias de la comunidad en adultos lo buscaremos como "community acquired pneumonia azithromycin mortality", y nos dará 40 resultados si acotamos la búsqueda a adultos. Bases de datos como Pubmed o Tripdtabase tienen buscadores "PICO", aunque este recurso suele no arrojar los mismos resultados, por lo que es recomendable dejar esto último para cuando se quiere reducir el número de resultados obtenidos en la forma tradicional. En los "enlaces recomendados" se puede acceder a estas bases de datos.
Un breve artículo puede ampliarles mejor este tema.
 
Para luego si comenzar el recorrido que nos propuso la autora de esta saga.

Esta serie de artículos alcanzó gran éxito entre aquellos que querían aprender los principios básicos de la Medicina Basada en la Evidencia, y así fueron recopilados en un libro en 1997, y este a su vez traducido al español, bajo el nombre de Como leer un articulo científico, cuya última traducción es del año 2016.

Artículos relacionados

Diseño de preguntas en medicina basada en la evidencia (PICO)

Como buscar artículos basados en la evidencia

Imágen: "Girls just wanna have fun" probablemente de Ertan Atay.

1 de febrero de 2016

Número necesario para tratar

Los efectos de un tratamiento, es decir la eficacia, suelen expresarse en la literatura médica como riesgo relativo, en el caso de los estudios prospectivos, o como odds ratio, en el caso de los estudios retrospectivos. Ambos por igual no son más expresiones que reflejan la relación entre dos tasas de incidencia. La incidencia del efecto que buscamos entre aquellos que reciben el tratamiento y la incidencia entre los que reciben, por ejemplo, un placebo. 

Busquemos un ejemplo. En una cohorte de 2.085 pacientes de alto riesgo de enfermar gravemente con Covid, se les administró un nuevo medicamento conocido como Paxlovid. 

En los resultados los investigadores informaron que 8 de 1039 pacientes se internaron, mientras que en el grupo placebo lo hicieron 66 de 1046. Es decir un 0.77% en el grupo de tratamiento vs. 6.31% en el grupo placebo. Por lo que los investigadores reportaron que el Riesgo Relativo fue de 0.11 (IC95% 0.06 - 0.25). Que traducido al castellano quiere decir que el medicamento previene en un 89% (porque 1-0.11=0.89) el riesgo de que una persona infectada enferme gravemente y se interne.

Pero aunque esta sea una forma habitual, y aceptada, de expresar los resultados el hecho de que se presenten en forma relativa y no en números absolutos puede magnificar la amplitud del efecto. Por lo que pareciera adecuado expresarlo también en términos absolutos. Al fin y al cabo cuantas más formas de expresarlo seguramente ayudan a la comprensión de los resultados. 

Para ello se sugiere agregar la Reducción del Riesgo Atribuible (RAR) y el Número Necesario para Tratar (NNT). Las ventajas de expresar la eficacia con el Número Necesario para tratar está ampliamente difundida desde 1998. Por lo que es algo que suelo reportar cuando comento un ensayo clínico. Veamos:

Si expresáramos los resultados del estudio de Paxlovid en términos absolutos nos encontraríamos que la reducción del riesgo atribuible fue del 5.54%. Miremos los números y el cálculo es simple: en el grupo placebo la incidencia de hospitalizarse fue del 6.31%, y en el grupo de tratamiento fue del 0.77% (6.31-0.77=5.54). Ya con este dato podemos calcular el famoso número necesario para tratar (NNT =1/Reducción del riesgo atribuible), que en este caso es de 18, con intervalos de confianza del 95% entre 14 y 26 (no se preocupe porque el cálculo de los intervalos de confianza los hace una calculadora, no yo).

El número necesario para tratar o NNT muestra el número de pacientes que sería necesario tratar para alcanzar el efecto en al menos 1 paciente. En nuestro ejemplo necesitamos tratar 18 pacientes para evitar una internación. Queda claro entonces que cuando menos pacientes debamos tratar mayor será la eficacia. Por ejemplo, si el NNT es de 1 significa que en cada paciente que doy el tratamiento también evito la internación. O sea una eficacia del 100%. Suena lindo, pero en la práctica esos medicamentos o vacunas no existen. 

Se puede hacer lo mismo para los efectos adversos se puede calcular un NNH o NND (Number need to harm o número necesario para dañar). Con lo que podríamos fácilmente en nuestra práctica clínica realizar un balance entre el NNT y el NND y valorando este riesgo beneficio adecuarlo a nuestros pacientes. De este modo tendríamos un análisis de riesgo beneficio que nosotros y nuestros pacientes posiblemente entenderían mejor. 

En otro estudio para el medicamento molnupiravir para el tratamiento del SARS-CoV-2 los investigadores encontraron que en el grupo tratamiento 48 de 709 (el 6.8%) de los pacientes tratados se había internado, frente a 68 de 699 (9.7%) en el grupo placebo. Los investigadores reportaron un beneficio del 31% (Hazard Ratio, 0.69; 95% CI, 0.48 a 1.01). Estos resultados indican el riesgo absoluto de disminución de la internación fue de 2,96%, con un NNT de 34 (IC 17 a 2443).

Para utilizar el NNT en nuestros pacientes, se propone ajustarlo frente al riesgo basal de padecer la enfermedad de nuestro paciente. 

En definitiva podemos decir que el NNT tiene dos ventajas claras: por un lado, ofrece una idea del efecto que tiene una intervención en comparación con otra y, por otro, es que es “fácilmente entendible” para muchos médicos y por los propios pacientes.

Ventajas

  • Sumar nuevos parámetros para evaluar la efectividad clínica o los efectos adversos nos pueden ayudar a encontrar diferencias que no hubieran sido posible en la forma clásica. 
  • Para muchas personas esta forma de expresar los resultados resulta más visible que las formas clásicas. 

Limitaciones del uso del Número Necesario para Tratar o para Dañar

  • El NNT refleja la media en el tiempo y varía a lo largo del mismo, por lo que el NNT es menos útil para enfermedades crónicas en las que otros fármacos y factores de riesgo participan posteriormente.
  • No nos habla del beneficio del paciente individual, sino de lo que se halló en los ensayos clínicos.
  • Solo podemos aplicarlo si nuestra población tiene las mismas características que la población estudiada (edad, comorbilidad).
  • Como con otros parámetros, el NNT tiene una variación al azar y muchos artículos solo nos informan del valor puntual sin el intervalo de confianza exigible.
  • El número necesario para dañar también es un valor dinámico ya que muchos efectos adversos son reportados en la etapa de post-comercialización. 
  • No todos los efectos adversos tienen la misma significación clínica, en el ejemplo de Paxlovid no se detallaron los efectos graves de la medicación que hizo que el doble de pacientes con el medicamento dejaran el tratamiento, en relación al placebo. 
  • No siempre refleja que el tratamiento sea estadísticamente o clínicamente relevante. Aunque la relevancia clínica también es una valoración subjetiva.

Referencias

1. Vizcaino G, Vizcaino-Carruyo, J. El número necesario a tratar como medida de efecto en el tratamiento de la trombocitopenia inmunme primaria. Invest Clin. 2021, vol 53, n1, pp 16-27 Acceso

2. Hashim A, Dang V, Bolotin S, Crowcroft NS. How and why researchers use the number needed to vaccinate to inform decision making--a systematic review. Vaccine. 2015 Feb 4;33(6):753-8. doi: 10.1016/j.vaccine.2014.12.033. Epub 2014 Dec 25. PMID: 25543164.

3. Raquel Carrillo Gomez. Número de personas que es necesario tratar.  

4. NNT y NND. Héctor Baptsista Gonzalez.

5. Significancia clínica o significancia estadística. Agustín Ciapponi. Rev. MF. 2014.

6. Alvarez-Cienfuegos, A, Montaño Barrientos A, Sanchez Robles GA et al. ¿Es clínicamente relevante además de estadísticamente significativo? Boletín Terapéutic Extremeño. 2021. Sep;3(3). Disponible en Evimed.

7. Este metanálisis y revisión sistemática compararon la mortalidad por todas las causas y los resultados cardiovasculares entre las reducciones inducidas por estatinas en los niveles de colesterol de lipoproteínas de baja densidad (LDL-C) con los efectos del placebo. Entre los pacientes aleatorizados al tratamiento con estatinas, la reducción del riesgo absoluto fue del 0,8 % para la mortalidad por cualquier causa, del 1,3 % para el infarto de miocardio y del 0,4 % para el accidente cerebrovascular, mientras que la reducción del riesgo relativo fue del 9 %, 29 % y 14 %, respectivamente. Los análisis de regresión que exploraron la asociación de la magnitud de la reducción de LDL-C inducida por estatinas con los resultados clínicos no fueron concluyentes.  P, Demasi M, Jones M, Smith SM, O’Brien KK, DuBroff R. Evaluating the Association Between Low-Density Lipoprotein Cholesterol Reduction and Relative and Absolute Effects of Statin TreatmentA Systematic Review and Meta-analysis. JAMA Intern Med. Published online March 14, 2022. doi:10.1001/jamainternmed.2022.0134

Artículos relacionados

¿Es útil el número necesario para vacunar?

21 de septiembre de 2014

Pirámides de evidencia

No todos los artículos publicados tienen el mismo valor como evidencia científica. Existen jerarquías dentro de las publicaciones que nos pueden ser útiles a la hora de seleccionar la mejor evidencia disponible. 
Cuando un conocimiento es nuevo en medicina, solemos manejarnos por la opinión de expertos, en realidad esto es contradictorio, ya que si el conocimiento es nuevo nadie debiera ser experto. Pero en general se suele atribuir la "experticia" al área de especialidad a la que se adjudica el problema. Me explico: si se trata de una enfermedad infecciosa los expertos serán infectólogos, si es un problema cardiovascular los expertos serán cardiólogos, y así. Estos especialistas o expertos, seguramente abordarán el problema por analogía, es decir acorde a como se manejaron problemas semejantes ante circunstancias parecidas. Así hasta que el conocimiento se consolide. Aquí otro ejemplo: al principio de la pandemia por SARS-CoV-2 en Argentina, los infectólogos, ahora convertidos en expertos, recomendaron la utilización de la mascarilla para prevenir el contagio, en base a experiencias ocurridas con el MERS y el SARS también durante este siglo. 
Aunque no existía evidencia directa sobre el virus SARS-CoV-2 esto era lo más parecido. Y como en Medicina Basada en la Evidencia lo que pretendemos es "la mejor evidencia disponible" entonces para muchos nos resultó aceptable. Y a los gobiernos les pareció lo mismo. 

Otro ejemplo es el de los cierres de emergencia o lockdowns, nacidos de opinión de expertos. Los reportes hasta hoy siguen siendo contradictorios acerca de si han servido o no. Seguramente hay mucha ideología en los escritos, pero es necesario dilucidar el tema porque más grave que un error sería el cometerlo dos veces, y la humanidad necesitará de estos datos en unos meses o en un siglo, cuando otra amenaza igual se suceda. 

¿Hasta cuando es razonable esta evidencia basada en expertos? Hasta que aparezcan más estudios que superen el conocimiento basado en analogías o a veces en simple intuición o preconceptos que como todo ser humano también los expertos tienen.
Aquí es necesario resaltar que la opinión de un experto es justamente eso: una opinión. Y por eso todas las pirámides de evidencia que conocemos no dejan de incluirlo, pero en la base de la pirámide, ya que puede estar influida por muchos sesgos. 
Una vez que el conocimiento comienza a aparecer en forma de publicaciones, los mismos expertos deben ajustar sus expectativas iniciales a la nueva evidencia que surja. No siempre esto sucede, en particular si la evidencia contradice los supuestos iniciales. En el caso de la mascarilla los estudios posteriores mostraron que disminuía el contagio y aun la mortalidad. Pero hay casos como la transmisión por aerosoles, donde los expertos de la Organización Mundial de la Salud se tomaron casi dos años hasta aceptar que esta era la forma de transmisión principal del virus. No solo ellos, todavía hay quienes promueven el lavado de manos o superficies, medida que se ha demostrado ineficaz para este virus, a la vez que también promueven el retiro de mascarillas en interiores. El caso de los expertos puede tornarse en un tipo de medicina muy difícil de erradicar y que se conoce como la Medicina Basada en la Eminencia, donde los expertos suelen ocupar cargos académicos o en sus instituciones científicas que actúan como garantía de su idoneidad. 
Muchos de estos llamados expertos, son figuras relevantes en sus respectivas especialidades, pero carecen de una formación sólida en la lectura y análisis crítico de la evidencia científica o de un conocimiento adecuado de lo que significa la "Medicina Basada en la Evidencia". Eso es posible observar cuando consideran como "evidencia" a todo lo que se publica, o citan experiencias de otros países, sin confirmar si los resultados fueron o no efectivos. 
La mayoría de los colegas que conocemos prefieren manejarse en base a los criterios de los expertos. Lo que en gran parte resulta lógico ya que existen limitantes que no afectan en nada a la calidad médica que son capaces de proveer a sus pacientes. Pueden no tener acceso a los estudios originales (muchos son de pago), o no saber leer en inglés, lo que los limita a leer la mayoría de la bibliografía actualizada, o pueden no tener herramientas críticas para el análisis, lo que los limita para entender adecuadamente un "paper". O simplemente, y seguramente es lo más habitual, no disponen del tiempo suficiente para una actualización continua en cada área del conocimiento.
En este punto es bueno recordar que esta Medicina Basada en la Eminencia se basa en el principio de autoridad. Una forma particular de pensamiento mágico que atribuye mayores capacidades cognitivas a quienes detentan cargos de dirección ya sea académicas o en la gestión. Además este pensamiento es más efectivo si el "experto" no vive en su misma ciudad o país. Eso suele crear un cierto halo de misterio que a algunos atrae. Sin embargo este principio va contra la esencia misma de la ciencia (magister dixit) un tema sobre el que Karl Popper se ha ocupado en su momento. Una especialización, maestría o doctorado brindan herramientas que incrementan la capacidad de análisis crítico pero no generan mágicamente una aptitud para versar sobre cualquier tema en forma indiscriminada. 

Un caso interesante de Comité de Expertos lo constituyó el National Cholesterol Education Program III. Este panel publicó en el 2001 unas guías sobre el tratamiento de la hiperlipidemia. Lo constituían más de 20 "expertos en colesterol" de los Estados Unidos. Como alguien se hace "experto en colesterol" será materia de debate, pero más materia de debate generó que sin mayores explicaciones en aquel momento decidieron que el "umbral normal" del colesterol debía ser menor, y así en un par de días y con una sola publicación generaron miles de nuevos "hipercolesterolémicos" en Estados Unidos y en el mundo. El hecho de que la mayoría de los integrantes hubieran publicado en revistas médicas sobre alguna estatina (un grupo de medicamentos que disminuye el colesterol), o hayan declarado recibir honorarios de algunas empresa farmacéutica no atrajo la atención de nadie.

Sin embargo y sin dudas por el estímulo financiero recibido para que esas guías se hicieran efectivas fueron mundialmente difundidas. Sin ningún estudio epidemiológico que lo validara inicialmente en otros países. 

En este caso lo correcto hubiera sido sostener el cambio a partir de probar que el nuevo umbral, como objetivo a alcanzar, disminuía la mortalidad cardiovascular. Para ello debía agregar evidencia de mayor nivel como estudios observacionales del tipo caso-control o de cohorte, o mejor aún ensayos clínicos controlados randomizados. 

Si observáramos esta pirámide desde la fase clínica en que se ha elaborado y el diseño del estudio tendríamos una imagen distinta, donde las fases iniciales de la investigación se encontrarían en la base de la pirámide. Aunque en la práctica no utilizamos estos niveles de evidencia ya que por lo general nos ocupamos de estudios en fase 3 o que hayan superado esa etapa, esto es, que han mostrado su eficacia, seguridad y no inferioridad en una cohorte humana. En este gráfico la opinión de expertos aparece como ideas, opiniones y editoriales de las revistas, que es la forma en las que suelen expresarse los mismos. Aunque como vimos puede aparecer como guías clínicas de parte de un grupo de expertos. Afortunadamente hoy existe una metodología conocida como GRADE, que permita establecer la veracidad de la evidencia y por ende medir la fuerza de las recomendaciones. 

Haynes en el año 2001 fue el primero en sistematizar el valor de la evidencia científica, que luego se transformaría en lo que hoy conocemos como las 6s, comenzando por la base hacia el vértice encontramos Estudios individuales (Studies en inglés), Sinopsis de estudios, Síntesis, Sinopsis de síntesis, Sumarios y finalmente  Sistemas.

La base de esta pirámide está conformada por estudios de cohorte, estudios de caso-control, reportes de series de casos o reportes de farmacovigilancia. Es sobre ellos que recién puede conformarse un cuerpo de conocimientos sólidos, y aunque están en el nivel más bajo de la jerarquía nada se puede construir sin ellos. Muchos de estos estudios aparecen diariamente en la base de datos de la Universidad McMaster (Canadá), aunque es posible encontrarlos en cualquiera de las bases de datos que utilizamos como Pubmed o Scielo. 

Todos estos estudios suelen estar publicados en revistas médicas de pago, aunque muchos de los artículos están "liberados" ( o sea no pagos ), para ser leídos y revisados por pares ("peer review"). También es posible encontrar también mucha información relevante en las cartas que se envían a las publicaciones después de aparecido un artículo aunque en general suele ser evidencia de estudios observacionales. Existen publicaciones de preprint las cuales no tienen revisiones por pares, por lo que es preciso leer los comentarios. El sistema más conocido actualmente es medRxiv del BMJ (se pronuncia "medarchiv")

Sobre los estudios clínicos de fase 3, se basan las agencias regulatorias como ANMAT, EMA o FDA, para aprobar medicamentos. La mayoría de ellos exige al menos dos estudios de eficacia y uno de seguridad.

Sinopsis de estudios son evaluaciones o lecturas críticas de estudios individuales que tratan de averiguar la calidad metodológica de dichas publicaciones e identificar si las conclusiones son acordes al diseño de estudio. Estos escritos no intentan fusionar o sintetizar estadísticamente los datos de los diferentes estudios como si lo hacen los metanálisis. Algunas revistas ofrecen este tipo de evaluaciones, y pueden ser encontradas fácilmente en Tripdatabase.

Síntesis  se trata de la búsqueda y fusión de datos de diferentes estudios individuales mediante el análisis estadística, es decir, las revisiones sistemáticas y metanálisis. Evidentemente, antes de realizar la síntesis estadística de datos, es necesario realizar la pertinente lectura crítica (revisión sistemática). El objetivo final de las síntesis no es tanto establecer una recomendación, sino ofrecer un análisis del conocimiento actual, tanto de los estudios a favor como en contra. En este punto Colaboración Cochrane con su base de datos de revisiones sistemáticas es sin duda el mejor lugar para encontrar este material.

Sinopsis de síntesis  son evaluaciones o lecturas críticas de revisiones sistemáticas y metanálisis (nivel anterior) que tratan de establecer la calidad metodológica de éstas, así como establecer si las conclusiones de las mismas son adecuadas a su fortaleza interna. Ejemplos de ellos pueden ser encontrados, en la muy aburridísima, pero necesaria, base de datos del Centro de Revisión y Diseminación de la Universidad de York, y en la mayoría de las bases de datos a las que accedemos en forma frecuente, como Pubmed, Tripdatabaseaunque por defecto en PROSPERO y en Colaboración Cochrane. 

Sumarios conocidas también como guías basadas en la evidencia. Son trabajos que buscan, evalúan, analizan y sintetizan (jerarquizándolos) todos los niveles de información anteriores. El objetivo final es ofrecer una recomendación basada en las mejores pruebas actuales, evaluando la ecuación riesgo-beneficio, o en algunos casos la ecuación económica de costo-efectividad, o la que corresponda, teniendo en cuenta si está disponible las preferencias o las necesidades y su aplicabilidad real. Las agencias de evaluación de tecnologías sanitarias suelen producir este tipo de informes y en la base de datos de INAHTA (International Agencies of Health Technologies Assessment) se puede acceder a muchas de esas conclusiones. Son relevantes en especial para gestores y tomadores de decisiones de políticas públicas y pueden servir como sustrato para la elaboración de guías de práctica clínica.   

Sistemas en algunos países como Inglaterra, Noruega, Israel u otros países nórdicos se utilizan bases de datos poblacionales para la toma de decisiones. También sabemos que en Bélgica existen redes de atención primaria que las utilizan, y sin duda el mayor desarrollo se da en Estados Unidos con la utilización de sistemas de información administrativos. No existen en nuestro medio actualmente. Su utilización puede ser controversial, aunque no están nominadas, es decir no figuran nombres y apellidos o información que pueda relevar la identidad de una persona. Aun así todos quieren tenerla, pero implica también  una centralización de información que puede hacer sentir a parte de la población con un mayor grado de exposición de la que quisiera tener. En un nivel teórico se refería a la evaluación de la dispersión de acciones a partir de una guía centralizada. Algo que no ocurre en ningún país que conozcamos. 

Murad plantea que la pirámide de evidencia se debe reformular, ya que con GRADE una evidencia de estudios observacionales puede llegar a ser más fuerte que una proveniente de estudios de caso-control. Con lo que los límites pueden ser más difusos. 

Así podemos concluir que los metanálisis, como la mayoría piensa, no siempre constituyen de por sí la mayor evidencia que podemos obtener. De hecho un metanálisis es tan débil como el más débil de sus estudios primarios es. Si viene de estudios observacionales y con gran cantidad de sesgo, el resultado probablemente esté sesgado, como ha sucedido en varios metanálisis publicados sobre el tratamiento con Ivermectina para el Covid-19, durante el año 2021. Incluso si no encontráramos estudios que lo superen, para algunos un gran ensayo clínico aleatorizado (Randomized Control Trial) puede responder mejor que un metanálisis a las preguntas que nos realizamos. Pero eso ya es motivo de otro artículo. Lo que aquí pretendía mostrar es que existe una jerarquía en la evidencia, y que sin duda, integrando esto estudios con búsquedas POEMs (Problem Oriented Evidence that Matters o DOE o EOP "disease oriented evidence o evidencia orientada a pacientes") aumentará nuestra capacidad de reconocer estudios clínicos que sean relevantes a la práctica asistencial.

Referencias:

1. Haynes RB. Of studies, syntheses, synopses, summaries, and systems: the "5S" evolution of information services for evidence-based healthcare decisions. Evid Based Med. 2006 Dec;11(6):162-4. doi: 10.1136/ebm.11.6.162-a. PMID: 17213159.

2.  Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. Evid Based Med. 2016 Aug;21(4):125-7. doi: 10.1136/ebmed-2016-110401. Epub 2016 Jun 23. PMID: 27339128; PMCID: PMC4975798.

Publicaciones relacionadas

28 de diciembre de 2012

El mundo de lo sensible y lo específico

La interpretación de métodos diagnósticos es útil para valorar parámetros bioquímicos, diagnóstico por imágenes o aún maniobras semiológicas, e incluso cuestionarios, que utilizamos en la práctica clínica. Estos estudios no solo se usan para el diagnóstico, sino también para evaluar la evolución o el resultado de un tratamiento, por lo que pienso que un título más adecuado sería el de interpretación y valoración del desempeño de los exámenes complementarios en general. 

Aunque una gran cantidad de consultas se acompaña de pedidos o lecturas de exámenes complementarios, en general estos son poco estudiados, reciben escasa atención en la bibliografía y suelen ser mal comprendidos. La idea de que un resultado positivo asegura que un paciente padezca una determinada condición, o al revés, que un resultado negativo asegure que no lo padezca, es solo patrimonio de un pensamiento mágico. Ello implicaria un test perfecto, el cual no existe, o no está disponible en nuestra práctica habitual. Los falsos positivos y los falsos negativos existen, lo único que podemos hacer es llevarlos al mínimo con la adecuada elección de un test. La información sobre cual es la sensibilidad y especificidad de un test  suele hallarse en bases de datos como Pubmed, donde hay miles de artículos médicos valorando nuevos y viejos tests, comparados contra un "gold standard", o "patrón de oro"; al cual se le ha asignado arbitrariamente este lugar. Una guía imprescindible para leer adecuadamente estos artículos la dió Trisha Greenhalgh hace más de 25 años, y aun sigue vigente.

Como en todo conocimiento, hay conceptos que a quien llega por primera vez al tema, deben clarificarse. Es el mundo de lo sensible y de lo específico. No se preocupe por los números, eso se soluciona más tarde con alguna forma de calcular, lo importante son los conceptos. 

Aquí la sensibilidad de un test es entendida como la probabilidad de que en un paciente enfermo, el test sea positivo  (E+/T+)  o llanamente la proporción de enfermos con una prueba positiva, y la especificidad como la probabilidad de que en un paciente sano, el test sea negativo  (E-/T-), o sea la proporción de sanos con una prueba negativa. 

Dicho de otra manera, los verdaderos positivos y los verdaderos negativos respectivamente. 

Si averiguamos que la sangre oculta en materia fecal, o heces (SOMF) para detectar cáncer de colon tiene una sensibilidad de un 95% y una especificidad de un 90%, entonces me estarán diciendo que si realizo este examen en pacientes que ya sabían que tenían cáncer colorrectal, en 95 de cada 100 pacientes el mismo fue positivo; pero que hecho en personas sanas en 90 de cada 100 el resultado del test es negativo. 

Suena complicado, y lo es, después de muchos años lo sigo pensando cada vez que lo digo, no intente recordarlo, solo entenderlo una vez.

Si superó lo anterior, ahora se pone peor. Sensibilidad y especificidad son características intrínsecas de las pruebas, si utiliza un mismo tipo de reactivos bioquímicos será igual en todo el mundo.

Con estos dos valores yo puedo calcular otro coeficiente que me dice que capacidad tiene el test de discriminar entre enfermos y sanos. 

Esto se llama Coeficiente de Probabilidad Positivo (CPP), y se calcula dividiendo la sensibilidad entre 100 menos la especificidad (S/(100-E)) u otra forma de decirlo es el cociente entre los verdaderos positivos y los falsos positivos. Para el ejemplo de la SOMF, seria entonces 95/(100-90) →95/10 = 9,5. Este coeficiente de probabilidad de 9,5 nos dice que un resultado positivo de la SOMF es 9.5 veces más frecuentes de encontrar en enfermos que sanos, mostrando que es un muy buen método para ser usado en el screening o cribado del cáncer colorrectal, en caso de que usted no estuviera enterado del porqué. Valores cercanos a 10 pueden interpretarse como una muy buena prueba, y cuando más se acerca a un valor de 1, menor capacidad para discriminar tiene.

También existe un coeficiente de probabilidad negativo (CPN o (100-S)/E)), que en este caso seria (100-95)/90→5/90→0.05, lo que indica que es poco probable encontrar un test negativo en un enfermo, pero en caso de encontrarlo reduce mucho la probabilidad de que el paciente tenga cáncer.

El CPP también es conocido en la literatura como razón de verosimilitud, o en inglés como likelihood ratio.

Si llegó a este párrafo, entonces usted quizás quiera saber como aplicarlo. En realidad lo anterior solo le sirve para entender lo que sigue, ya que frente a nuestros pacientes de poco nos sirve saber la sensibilidad o especificidad de un examen. Lo que a mi me interesa saber en mi consultorio es: si en mi paciente el resultado de la SOMF fue positiva cual es la probabilidad de cáncer. Nada que ver con el valor de la sensibilidad, ya que lo que ahora quiero conocer es cual seria la probabilidad que dado un Test Positivo mi paciente esté enfermo, dicho de otro modo que probabilidad tiene mi paciente de tener cáncer si el test fue positivo, o T+/E+, o sea el Valor Predictivo Positivo (VPP).

 

Para responder a esta pregunta necesito saber la prevalencia o incidencia del cáncer colorrectal en un grupo parecido al de mi paciente. Supongamos que tiene 70 años y la incidencia es tan alta como el 5%, el Valor Predictivo Positivo será del 33,6%, o sea que ha pasado de un 5% a más de un 33%, por lo que inmediatamente le estaré pidiendo otros estudios e interconsultando con un especialista. También existe el Valor Predictivo Negativo, que en este caso por ser menor a 1 (en este caso 0.05) implica que es muy poco probable que la enfermedad esté presente si el resultado es negativo. Mientras que si mi paciente tuviera 15 años y la incidencia de este cáncer fuera tan baja como del 0.01% el Valor Predictivo Positivo será del 1% y cuando da positivo seguramente se trata de un falso positivo. Con lo que se concluye que los valores predictivos son altamente influenciados por la prevalencia o la incidencia de la enfermedad que estamos buscando encontrar o descartar. O sea que estos valores si cambian dependiendo el lugar, el tiempo o las características particulares de la población donde me encuentre.

Cuando los médicos seleccionamos determinados factores de riesgo para pedir un estudio, lo que hacemos es simplemente optimizar los resultados, tratando de incrementar la incidencia, o probabilidad previa al estudio. De ese modo, si el test es positivo tendrá mas chances de ser un verdadero positivo. En el caso de la sangre oculta, los valores predictivos se incrementarán con la edad y también en pacientes con alteraciones del tránsito intestinal, entre otras cosas.

Otro factor que puede cambiar el valor predictivo, y que pocas veces es tenido en cuenta, resulta de que los valores estudiados de sensibilidad y especificidad de los estudios suelen obtenerse de centros hospitalarios o universitarios, que sobreestiman los mismos al calcularlo sobre población que en general está más grave. Poco o nada es lo estudiado aun en centros ambulatorios.

Como puedo calcular este valor predictivo? De tres maneras, si uno conoce el tema con un papel y una calculadora, aunque es poco práctico para la mayoría. Otra es con el nomograma de Fagan, de la segunda imagen, y la tercera, la más fácil y precisa, es con una calculadora de métodos diagnósticos, solo utilizando la prevalencia como probabilidad pre-test, como la que dejé en el enlace, y que además le dice como debe interpretar los valores 👇. 


Claramente la última opción es la mejor, pero siempre es mejor entender de donde salen y sobre todo que significan esos números.

Un apartado particular supone los tests que son operadores dependientes. Son llamadas así por que, por ejemplo una imágen radiológica, puede ser interpretada de distintas maneras por distintas personas. En ello influye mucho el entrenamiento previo, pero también el tiempo que la dedica diariamente a las mismas; por ello no es igual la interpretación de un radiólogo que puede ver 20 imágenes parecidas en una semana, a la de un médico de familia, quien por la propia dinámica de su consulta está viendo esa imágen una vez al dia, o a la semana. De igual manera, y aún dentro de las sub-especialidades se estudia la concordancia intraobservador e interobservador, con resultados que a veces decepcionan. Para ello se utiliza frecuentemente el coeficiente kappa de Cohen. Para disminuir esta variabilidad se han creado programas de entrenamiento, residencias médicas y post-grados, por ejemplo en diagnóstico por imágenes, que buscan justamente disminuir esta variabilidad con entrenamiento. Afortunadamente para todos lo logran, y es por ello también que seguimos leyendo los informes que nos envían.

Más alla de especificidades o valores predictivos también se puede empezar con algunas reglas útiles en la práctica médica: 

1. Si el resultado de un test no va a cambiar nuestra conducta posterior, entonces pensar si es necesario pedirlo.

2. Si el resultado de un test nos sorprende, seguramente lo pedimos sin pensar.

3. Debemos saber de antemano, que conducta tomaremos frente a los diferentes resultados que un test nos puede ofrecer. 

4. Muchas veces un test no es para nosotros, sino para validar nuestro diagnóstico frente a un paciente. No es poco, pero tenemos que tener eso en claro al hacerlo.

5. La falta de evidencia empírica no debe ser argumento para abandonar el exámen físico, ya que el mismo contacto físico es parte de toda relación humana, y obviamente esencial para el encuentro con nuestros pacientes. Algo importante a recordar en el examen de personas sanas.
Artículos y herramientas

 

 

 

 

 

 Videos

1. Como construir una tabla de 2x2 o tabla de contingencia. Video.

2. Sensiblidad y especificidad. Valor predictivo. Video.

3. Sensibilidad y especificidad con ejemplos numéricos. Video

4. Coeficiente de verosimilitud o coeficiente de probabilidad. Video.

5. Coeficiente de verosimilitud II. Video.

6. Coeficiente de verosimilitud III. Video.

7. Coeficiente de verosimilitud IV. Video.

8. Coeficiente de verosimilitud. V. Video.

9. Coeficiente de verosimilitud VI. Nomograma de Fagan y otros cálculos del VPP. Video.

1 de febrero de 2010

¿Porqué la mayoría de los hallazgos de investigación publicados son falsos?

John PA Ioannidis es un médico estadounidense que trabaja en el Centro de Inovación en Meta-Investigación de Standford (METRICS) y también editor del European Journal of Clinical Investigation. Su trabajo más conocido data del año 2005, y como la mayoría no ha pasado del título aquí está al menos una sinopsis. 

Existe una creciente preocupación de que la mayoría de los hallazgos de investigación publicados actualmente sean falsos. La probabilidad de que la afirmación de una investigación sea cierta puede depender del poder y el sesgo del estudio, la cantidad de otros estudios sobre la misma pregunta y, lo que es más importante, la proporción de relaciones verdaderas y nulas entre las relaciones investigadas en cada campo científico. En este marco, es menos probable que un hallazgo de investigación sea cierto cuando los estudios realizados en un campo son más pequeños; cuando los tamaños del efecto son más pequeños; cuando hay mayor número y menor preselección de relaciones probadas; donde hay mayor flexibilidad en los diseños, definiciones, resultados y modos analíticos; cuando hay mayor interés y prejuicio financiero y de otro tipo; y cuando más equipos están involucrados en un campo científico en busca de significación estadística. Las simulaciones muestran que para la mayoría de los diseños y entornos de estudio, es más probable que una afirmación de investigación sea falsa que verdadera. Además, para muchos campos científicos actuales, los supuestos hallazgos de la investigación a menudo pueden ser simplemente medidas precisas del sesgo predominante. En este ensayo, discuto las implicaciones de estos problemas para la realización e interpretación de la investigación.

Modelando el marco para hallazgos falsos positivos

Como se mostró anteriormente, la probabilidad de que un hallazgo de investigación sea cierto depende de la probabilidad previa de que sea cierto, el poder estadístico del estudio y el nivel de significancia estadística. Es característico del campo y puede variar mucho dependiendo de si el campo apunta a relaciones altamente probables o busca solo una o unas pocas relaciones verdaderas entre miles y millones de hipótesis que se pueden postular. Consideremos también, por simplicidad computacional, campos circunscritos donde solo hay una relación verdadera (entre muchas que se pueden hipotetizar) o el poder es similar para encontrar cualquiera de las varias relaciones verdaderas existentes. Y aquí el autor compara a los estudios clínicos como una prueba diagnóstica y afirma que la mayoría de los hallazgos positivos son falsos positivos.

Parcialidad

El sesgo no debe confundirse con la variabilidad aleatoria que hace que algunos hallazgos sean falsos por casualidad, aunque el diseño del estudio, los datos, el análisis y la presentación sean perfectos. El sesgo puede implicar la manipulación en el análisis o el informe de los hallazgos. La información selectiva o distorsionada es una forma típica de tal sesgo.

Por lo tanto, con el aumento del sesgo, las posibilidades de que un hallazgo de investigación sea cierto disminuyen considerablemente. Esto se muestra para diferentes niveles de potencia y para diferentes probabilidades previas al estudio. Por el contrario, los verdaderos hallazgos de la investigación pueden ocasionalmente anularse debido al sesgo inverso. Por ejemplo, con grandes errores de medición, las relaciones se pierden en el ruido, o los investigadores usan los datos de manera ineficiente o no notan las relaciones estadísticamente significativas, o puede haber conflictos de intereses que tienden a “ocultar” hallazgos significativos. No hay buena evidencia empírica a gran escala sobre la frecuencia con la que puede ocurrir ese sesgo en diversos campos de investigación. Sin embargo, probablemente sea justo decir que el sesgo no es tan común. Además, los errores de medición y el uso ineficiente de los datos probablemente se están convirtiendo en problemas menos frecuentes, ya que el error de medición ha disminuido con los avances tecnológicos en la era molecular y los investigadores son cada vez más sofisticados con respecto a sus datos. El sesgo no debe confundirse con la variabilidad del azar que puede llevar a perder una relación verdadera debido al azar.

Pruebas por varios equipos independientes

Varios equipos independientes pueden estar abordando los mismos conjuntos de preguntas de investigación. A medida que los esfuerzos de investigación se globalizan, es prácticamente la regla que varios equipos de investigación, a menudo docenas de ellos, puedan investigar las mismas preguntas o similares. Desafortunadamente, en algunas áreas, la mentalidad predominante hasta ahora ha sido la de centrarse en descubrimientos aislados por equipos individuales e interpretar los experimentos de investigación de forma aislada. Un número cada vez mayor de preguntas tienen al menos un estudio que reclama un hallazgo de investigación, y esto recibe atención unilateral. 

Corolarios

Apela a la visión sistémica y de conjunto del fenómeno. 

Corolario 1: Cuanto más pequeños son los estudios realizados en un campo científico, menos probable es que los hallazgos de la investigación sean ciertos

 Corolario 2: Cuanto más pequeños son los tamaños del efecto en un campo científico, menos probable es que los hallazgos de la investigación sean ciertos

Corolario 3: cuanto mayor sea el número y menor la selección de relaciones probadas en un campo científico, es menos probable que los hallazgos de la investigación sean ciertos. 

Corolario 4: cuanto mayor sea la flexibilidad en los diseños, las definiciones, los resultados y los modos analíticos en un campo científico, es menos probable que los hallazgos de la investigación sean ciertos. 

La flexibilidad aumenta el potencial para transformar lo que serían resultados “negativos” en resultados “positivos”, es decir, sesgo . Para varios diseños de investigación, por ejemplo, ensayos controlados aleatorios o metanálisis, se han realizado esfuerzos para estandarizar su conducta y presentación de informes. Es probable que la adherencia a los estándares comunes aumente la proporción de hallazgos verdaderos. Lo mismo se aplica a los resultados. Los hallazgos verdaderos pueden ser más comunes cuando los resultados son inequívocos y universalmente aceptados (p. ej., la muerte) en lugar de cuando se diseñan resultados múltiples (p. ej., escalas para los resultados de la esquizofrenia). De manera similar, los campos que utilizan métodos analíticos estereotipados comúnmente acordados (por ejemplo, diagramas de Kaplan-Meier y la prueba de rango logarítmico) puede generar una mayor proporción de hallazgos verdaderos que los campos donde los métodos analíticos aún están bajo experimentación (p. ej., métodos de inteligencia artificial) y solo se informan los "mejores" resultados.

De todos modos, incluso en los diseños de investigación más estrictos, el sesgo parece ser un problema importante. Por ejemplo, hay pruebas sólidas de que la notificación selectiva de los resultados, con la manipulación de los resultados y los análisis notificados, es un problema común incluso en los ensayos aleatorios. La simple abolición de la publicación selectiva no resolvería este problema.

Corolario 5: Cuanto mayores son los intereses y prejuicios financieros y de otro tipo en un campo científico, menos probable es que los hallazgos de la investigación sean ciertos. Los conflictos de interés y los prejuicios pueden aumentar el sesgo. Los conflictos de intereses son muy comunes en la investigación biomédica y, por lo general, se informan de manera inadecuada y escasa. El prejuicio puede no tener necesariamente raíces financieras. Los científicos en un campo determinado pueden tener prejuicios simplemente por su creencia en una teoría científica o por su compromiso con sus propios hallazgos. Muchos estudios universitarios aparentemente independientes pueden llevarse a cabo sin otra razón que la de otorgar a los médicos e investigadores calificaciones para la promoción o la permanencia en el cargo. Dichos conflictos no financieros también pueden dar lugar a resultados e interpretaciones distorsionados. Investigadores de prestigio pueden suprimir el proceso de revisión por pares la aparición y la difusión de hallazgos que refuten sus hallazgos, condenando así a su campo a perpetuar falsos dogmas. La evidencia empírica sobre la opinión de expertos muestra que es extremadamente poco fiable.

Corolario 6: Cuanto más candente es un campo científico (con más equipos científicos involucrados), menos probable es que los hallazgos de la investigación sean ciertosEste corolario aparentemente paradójico se debe a que, como se indicó anteriormente, el valor predictivo positivo de los hallazgos aislados disminuye cuando muchos equipos de investigadores están involucrados en el mismo campo. Esto puede explicar por qué ocasionalmente vemos una gran emoción seguida rápidamente por severas decepciones en campos que llaman mucho la atención. Con muchos equipos trabajando en el mismo campo y con la producción de datos experimentales masivos, el tiempo es esencial para vencer a la competencia. Así, cada equipo puede priorizar la búsqueda y difusión de sus resultados “positivos” más impresionantes. Los resultados "negativos" pueden volverse atractivos para la difusión solo si algún otro equipo ha encontrado una asociación "positiva" en la misma pregunta. En ese caso, puede resultar atractivo refutar una afirmación realizada en alguna revista de prestigio. La evidencia empírica sugiere que esta secuencia de extremos opuestos es muy común en la genética molecular.

Estos corolarios consideran cada factor por separado, pero estos factores a menudo se influyen entre sí. Por ejemplo, es más probable que los investigadores que trabajan en campos en los que se percibe que el tamaño del efecto real es pequeño realicen estudios grandes que los investigadores que trabajan en campos en los que se percibe que el tamaño del efecto real es grande. O el prejuicio puede prevalecer en un campo científico candente, socavando aún más el valor predictivo de los hallazgos de su investigación. Las partes interesadas con muchos prejuicios pueden incluso crear una barrera que aborte los esfuerzos para obtener y difundir resultados opuestos. Por el contrario, el hecho de que un campo esté de moda o tenga fuertes intereses invertidos a veces puede promover estudios más amplios y mejores estándares de investigación, mejorando el valor predictivo de los resultados de su investigación.

La mayoría de los hallazgos de investigación son falsos para la mayoría de los diseños de investigación y para la mayoría de los campos.

En el marco descrito, un PPV superior al 50% es bastante difícil de conseguir. Un hallazgo de un ensayo controlado aleatorizado bien realizado y con un poder estadístico adecuado que comienza con una probabilidad previa al estudio del 50 % de que la intervención es efectiva es finalmente cierto en aproximadamente el 85 % de las veces. Se espera un desempeño bastante similar de un metanálisis confirmatorio de ensayos aleatorizados de buena calidad: el sesgo potencial probablemente aumenta, pero el poder estadístico y las posibilidades previas a la prueba son mayores en comparación con un único ensayo aleatorizado. Los hallazgos de la investigación de los ensayos clínicos de fase temprana con poca potencia serían ciertos aproximadamente una de cada cuatro veces, o incluso con menos frecuencia si hay sesgo. Los estudios epidemiológicos de naturaleza exploratoria funcionan incluso peor, especialmente cuando no tienen suficiente potencia, pero incluso los estudios epidemiológicos con buena potencia pueden tener solo una posibilidad entre cinco de ser ciertos. Finalmente, en la investigación orientada al descubrimiento con pruebas masivas, donde las relaciones probadas superan las verdaderas 1000 veces (p. ej., 30 000 genes probados, de los cuales 30 pueden ser los verdaderos culpables), el VPP para cada relación declarada es extremadamente bajo , incluso con una estandarización considerable de los métodos estadísticos y de laboratorio, los resultados y la notificación de los mismos para minimizar el sesgo.

Los hallazgos de investigación afirmados a menudo pueden ser simplemente medidas precisas del sesgo predominante

Como se muestra, la mayoría de la investigación biomédica moderna está operando en áreas con muy baja probabilidad antes y después del estudio de obtener hallazgos verdaderos. Supongamos que en un campo de investigación no hay hallazgos verdaderos por descubrir. La historia de la ciencia nos enseña que, en el pasado, el esfuerzo científico a menudo ha desperdiciado esfuerzos en campos sin ningún rendimiento de información científica verdadera, al menos según nuestra comprensión actual. En tal "campo nulo", idealmente se esperaría que todos los tamaños del efecto observados varíen por casualidad alrededor del nulo en ausencia de sesgo. La medida en que los hallazgos observados se desvían de lo esperado por pura casualidad sería simplemente una medida pura del sesgo predominante.

Por ejemplo, supongamos que ningún nutriente o patrón dietético son realmente determinantes importantes para el riesgo de desarrollar un tumor específico. Supongamos también que la literatura científica ha examinado 60 nutrientes y afirma que todos ellos están relacionados con el riesgo de desarrollar este tumor con riesgos relativos en el rango de 1,2 a 1,4 para la comparación de los tercilos de ingesta superior e inferior. Entonces, los tamaños del efecto declarados simplemente miden nada más que el sesgo neto que ha estado involucrado en la generación de esta literatura científica. Los tamaños del efecto declarados son, de hecho, las estimaciones más precisas del sesgo neto. Incluso se deduce que entre los "campos nulos", los campos que reclaman efectos más fuertes (a menudo acompañados de afirmaciones de importancia médica o de salud pública) son simplemente aquellos que han sufrido los peores sesgos.

Para campos con VPP muy bajo, las pocas relaciones verdaderas no distorsionarían mucho esta imagen general. Incluso si algunas relaciones son verdaderas, la forma de la distribución de los efectos observados aún brindaría una medida clara de los sesgos involucrados en el campo. Este concepto invierte totalmente la forma en que vemos los resultados científicos. Tradicionalmente, los investigadores han visto con entusiasmo los efectos grandes y muy significativos, como signos de importantes descubrimientos. En realidad, es más probable que los efectos demasiado grandes y demasiado significativos sean signos de un gran sesgo en la mayoría de los campos de la investigación moderna. Deben conducir a los investigadores a un pensamiento crítico cuidadoso sobre lo que podría haber salido mal con sus datos, análisis y resultados. efecto de inmersión en la cultura no puede ver el agua como el pez.

Por supuesto, es probable que los investigadores que trabajan en cualquier campo se resistan a aceptar que todo el campo en el que han desarrollado sus carreras es un "campo nulo". Sin embargo, otras líneas de evidencia, o avances en tecnología y experimentación, pueden conducir eventualmente al desmantelamiento de un campo científico. La obtención de medidas del sesgo neto en un campo también puede ser útil para obtener una idea de cuál podría ser el rango de sesgo que opera en otros campos donde pueden estar operando métodos analíticos, tecnologías y conflictos similares.

¿Cómo podemos mejorar la situación?

¿Es inevitable que la mayoría de los hallazgos de la investigación sean falsos o podemos mejorar la situación? Un problema importante es que es imposible saber con 100% de certeza cuál es la verdad en cualquier pregunta de investigación. En este sentido, el estándar de "oro" puro es inalcanzable. Sin embargo, existen varios enfoques para mejorar la probabilidad posterior al estudio.

La evidencia con mejor poder estadístico, por ejemplo, estudios grandes o metanálisis de bajo sesgo, puede ayudar, ya que se acerca al estándar "oro" desconocido. Sin embargo, los estudios grandes aún pueden tener sesgos y estos deben reconocerse y evitarse. Además, es imposible obtener evidencia a gran escala para todos los millones y trillones de preguntas de investigación planteadas en la investigación actual. La evidencia a gran escala debe orientarse a las preguntas de investigación en las que la probabilidad previa al estudio ya es considerablemente alta, de modo que un hallazgo de investigación significativo conduzca a una probabilidad posterior a la prueba que se consideraría bastante definitiva. La evidencia a gran escala también está particularmente indicada cuando puede probar conceptos importantes en lugar de preguntas estrechas y específicas. Un resultado negativo puede entonces refutar no solo una afirmación propuesta específica, sino todo un campo o una parte considerable del mismo. Seleccionar el rendimiento de estudios a gran escala con base en criterios estrechos de miras, como la promoción comercial de un fármaco específico, es en gran medida una investigación desperdiciada. Además, se debe tener cuidado de que los estudios extremadamente grandes tengan más probabilidades de encontrar una diferencia significativa desde el punto de vista estadístico formal para un efecto trivial que en realidad no es significativamente diferente del efecto nulo.

En segundo lugar, muchos equipos abordan la mayoría de las preguntas de investigación, y es engañoso enfatizar los hallazgos estadísticamente significativos de un solo equipo. Lo que importa es la totalidad de la evidencia. También puede ayudar la disminución del sesgo a través de mejores estándares de investigación y la reducción de los prejuicios. Sin embargo, esto puede requerir un cambio en la mentalidad científica que puede ser difícil de lograr. En algunos diseños de investigación, los esfuerzos también pueden tener más éxito con el registro inicial de estudios, por ejemplo, ensayos aleatorios. El registro supondría un desafío para la investigación generadora de hipótesis. Algún tipo de registro o conexión en red de recopilaciones de datos o investigadores dentro de los campos puede ser más factible que el registro de todos y cada uno de los experimentos generadores de hipótesis. Independientemente, incluso si no vemos un gran progreso con el registro de estudios en otros campos, los principios de desarrollar y adherirse a un protocolo podrían tomarse más ampliamente de los ensayos controlados aleatorios.

Finalmente, en lugar de perseguir la significación estadística, debemos mejorar nuestra comprensión del rango de valores de probabilidades previas al estudio, donde operan los esfuerzos de investigación. Antes de realizar un experimento, los investigadores deben considerar cuáles creen que son las posibilidades de que estén probando una relación verdadera en lugar de una relación no verdadera. Como se describió anteriormente, siempre que sea éticamente aceptable, se deben realizar estudios grandes con un sesgo mínimo sobre los resultados de la investigación que se consideren relativamente establecidos, para ver con qué frecuencia se confirman. Sospecho que varios "clásicos" establecidos fallarán la prueba.

Sin embargo, la mayoría de los nuevos descubrimientos seguirán surgiendo de investigaciones generadoras de hipótesis con probabilidades previas al estudio bajas o muy bajas. Entonces deberíamos reconocer que las pruebas de significación estadística en el informe de un solo estudio dan solo una imagen parcial, sin saber cuántas pruebas se han realizado fuera del informe y en el campo relevante en general. A pesar de una gran literatura estadística para múltiples correcciones de prueba, por lo general es imposible descifrar cuántos datos extraídos por los autores informantes u otros equipos de investigación han precedido a un hallazgo de investigación informado. Incluso si determinar esto fuera factible, esto no nos informaría sobre las probabilidades previas al estudio. Por lo tanto, es inevitable que uno deba hacer suposiciones aproximadas sobre cuántas relaciones se espera que sean verdaderas entre aquellas investigadas en los campos de investigación y diseños de investigación relevantes. El campo más amplio puede brindar alguna orientación para estimar esta probabilidad para el proyecto de investigación aislado. También sería útil aprovechar las experiencias de los sesgos detectados en otros campos vecinos. Aunque estas suposiciones serían considerablemente subjetivas, serían muy útiles para interpretar las afirmaciones de la investigación y ponerlas en contexto.
 
Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124

Pintura: Georg Scholz. Pintor alemán.