La Dura Carga de los Jóvenes Investigadores en el Siglo XXI

La ciencia pasa por una preocupante crisis de ética y reproducibilidad. Hemos pasado de escudriñar la naturaleza para construir conocimiento a céntranos en la publicación de artículos científicos cuyo objetivo es la inflar el currículo académico de investigadores y otros personajes que se suman como coautores sin haber tenido ningún tipo de participación. Existe una conglomeración de malas prácticas científicas (scientific misconduct) que ponen en entre dicho el quehacer de la ciencia en el siglo XXI y que ofrecen un panorama lo suficientemente desolador.

Un mundo más allá del p = 0.05

Una de las causas más sobresalientes de la crisis de reproducibilidad es la incompetencia estadística de los investigadores. Aunque en principio suene contraintuitivo, la mayoría de los científicos carecen del conocimiento suficiente para analizar sus datos experimentales. Como lo hace notar Richard McElreath, director del Instituto Max Planck de Antropología Evolutiva en Leipzig (Alemania), las universidades conservan la enseñanza de métodos estadísticos improductivos para la inferencia científica. Tristemente, los investigadores se convierten en expertos calculadores de valores p (p-values), sin entender lo que este valor dice sobre sus datos y pensando erróneamente que este responde a sus preguntas científicas. Los investigadores pasan por pregrados, maestrías y doctorados en ciencia creyendo erróneamente que el p-value indica si un tratamiento tiene efecto o no, o que demarca una diferencia entre sus grupos experimentales.

Las llamadas repetitivas que ha hecho La Asociación Estadística Americana durante décadas han caído siempre en los oídos sordos de los científicos. En su último comunicado, la organización indica claramente que un p-value no mide el tamaño del efecto o la importancia de un resultado, ni que deben tomarse decisiones con base solamente en este valor, entre otros puntos. Por el contrario, este valor podría indicar solamente la incompatibilidad de los datos con el modelo estadístico especificado, o en su defecto, indicar que los investigadores están acotando errores tipo 1 (falsos positivos) en sus datos. A pesar de esto, lo que se encuentra en la literatura científica son conclusiones basadas en “diferencias significativas” o p < 0.05 que no responden ninguna pregunta de investigación y constituyen irremediablemente un desperdicio del erario público. Podría considerarse aún más alarmante la presión; o en su defecto, la motivación que sufren los jóvenes investigadores para continuar esta mala práctica científica bajo la tutela de las revistas especializadas y la academia

¿Para qué hacer verdadera inferencia estadística/científica, si solo con calcular p-values nos publican artículos que nos ayudan a ascender en la pirámide académica? 

En Statistical Rethinking, el mismo Richard McElreath realiza un esfuerzo descomunal para educar a las nuevas generaciones de científicos en inferencia estadística; una campaña que conjuga con seminarios online que ofrecen herramientas prácticas para (verdaderamente) responder preguntas de investigación. Este autor indica que los científicos deben “dejar de probar y empezar a pensar” (stop testing and start thinking). Es decir, parar de hacer los test estadísticos que repiten por inercia (para calcular p-values), y empezar a plantear modelos estadísticos que permitan tomar decisiones basados en estimaciones e incertidumbre en la medición. De igual manera, la Asociación Americana de Estadística publicó en 2019 un especial de al menos dos docenas de artículos científicos, donde además de resumir los esfuerzos ineficaces que se han hecho durante el último medio siglo para reeducar a los investigadores, se ofrecen herramientas para que los interesados modifiquen sus malas prácticas estadísticas. Desafortunadamente, el panorama en las próximas décadas permanece oscuro y los vientos de cambio permanecen muy lejanos.

Los beneficios económicos por encima del conocimiento científico

Otros implicados en la crisis de reproducibilidad son las revistas científicas y sus casas editoriales. En tiempos pre-internet, las revistas, usualmente administradas por gremios de científicos, cumplían el papel fundamental de llevar el trabajo de investigadores alrededor del mundo a las mesas de sus pares. En la actualidad, son principalmente empresas que facturan billones al año a costa de la imperiosa necesidad que se ha impuesto en la academia para publicar, lo que se denomina “publica o perece” (publish or perish). Actualmente, la eficacia de un investigador no se basa en la calidad de la ciencia que produce o en cuantas vidas han salvado los tratamientos que reporta en sus artículos científicos. Se basa en el número de artículos que publica y en las veces que lo citan. No importa lo que se publique, solamente, que se publique y que alguien más hable de ello.

Lo anterior ha generado una brecha ética desastrosa en la comunidad académica y ganancias económicas desbordadas para las casas editoriales. Si lo piensa en perspectiva, las revistas científicas son el mejor negocio del mundo. Por ejemplo, el nuevo modelo de open access de Nature Neuroscience implica que la autores paguen 11.000 dólares para que la revista publique su artículo como PDF en su base de datos. La revista no hace inversión alguna, no contribuye con dinero para la investigación, y no paga a los investigadores ni a los revisores del artículo. Solo mantiene una página web por la que la casa Editorial Springer-Nature, con sede en Berlín, factura alrededor de 2 billones de dólares al año. Las revistan científicas son el único negocio en el mundo que se enriquece a costa del dinero y trabajo de otros. No es menos problemático que el público financie la investigación con sus impuestos y después deba pagarle a Nature 35 dólares para acceder a los resultados.  Es paradójico que las instancias académicas y gubernamentales sean cómplices de este modelo tan paupérrimo de administración de la ciencia.

La ausencia de datos crudos dificulta el progreso científico

Del asunto de las editoriales existe sin duda mucha tela por cortar. Sin embargo, existe un aspecto en el que vale la pena hacer hincapié: la promoción de la ciencia irreproducible por la ausencia de los datos crudos. Paradójicamente, aunque la evidencia científica se basa en datos, las revistas, con contadas excepciones, no exigen a los investigadores los datos crudos como respaldo de sus artículos. En este sentido, la ciencia moderna se basa en la confianza de que lo reportado por los investigadores es verídico. Sin embargo, la brecha ética, que incluye prácticas como la mencionada incompetencia estadística, la manipulación y falsificación de datos, y la publicación selectiva de resultados favorables hacen cuestionable esta confianza.

¿No es acaso una cuestión simple que los investigadores deban adjuntar los datos crudos a los artículos?

En realidad, existen limitantes de ambos lados. Por una parte, la mayoría de los investigadores son incompetentes en el manejo de datos, y por lo tanto, difícilmente pueden proveer un corpus de datos crudos del que otros investigadores pueda hacer uso. Incluso, en las revistas como eLife o Nature Communications, donde se exige una parte de los datos crudos, el lector podrá ver que en la mayoría de los casos estos se presentan en formatos poco útiles.

No obstante, tal vez la mayor limitación por ese lado sea la poca voluntad de los investigadores para compartir sus datos. “No queremos otras personas escudriñando en nuestros datos y retando (challenging) nuestros resultados”, le escuché alguna vez a un “prominente” investigador. Las razones para ello son variadas, pero una de las más comunes es la ocultación, falsificación o fabricación de datos para obtener p-values por debajo de 0.05 que favorezcan la publicación del artículo. El lector podrá encontrar en revistas científicas una cláusula que dice más o menos: “los datos crudos estarán disponibles cuando se requieran por parte de investigadores competentes”. Sin embargo, si se pone a la tarea, el lector se dará cuenta que los datos crudos no aparecen cuando se solicitan. Ni siquiera, ejerciendo como revisor de un artículo, logra uno que los científicos compartan datos crudos. Por este motivo, en mi actividad profesional, declino la revisión de artículos a cuyos datos crudos no tenga acceso. Al final, sin datos crudos disponibles, un artículo científico no es más que una historia convenientemente montada que los lectores nos vemos obligados a creer basados en una dudosa ética profesional y evidente incompetencia estadística por parte de los investigadores. Sin datos crudos, no hay ciencia y todo investigador competente debería ser capaz de proveerlos sin cuestionamiento.

Por el lado de las revistas científicas, la metascience conference que se llevó a cabo en 2021, dejó claro que solicitar datos crudos significa una pérdida de clientes (investigadores), y por lo tanto, de dinero. Las casas editoriales no están dispuestas a bajar su facturación en aras de contribuir a la ciencia abierta y reproducible. Es más cuestionable aún la pasividad de estas entidades con los fraudes que se descubren en los artículos bajo su tutela.

Elisabeth Bik (@MicrobiomDigest) es una consultora independiente que destapa cientos de fraudes científicos al año, como lo describe su reciente artículo en el New York Times. Bik refiere que las universidades y las revistas científicas toman acciones solamente en el 10% de los casos, y de manera desconcertante, pueden tardarse hasta una década en retractar un artículo fraudulento. Lo anterior implica que el 90% de las veces las revistas científicas continúan listando en sus webs artículos que saben que contienen información falsificada. Así pues, son cómplices de la ciencia fraudulenta.

La consultora también ha hecho públicas las herramientas o métodos que los investigadores utilizan para falsificar investigaciones, incluyendo la alteración deliberada de imágenes, la creación de imágenes biomédicas mediante inteligencia artificial, o el ensamble de artículos enteros utilizando research paper mills. Cerca de un centenar de estos negocios, que se ubican principalmente en China, han sido descubiertos. En YouTube, se encuentran conferencias que la consultara realiza para tratar de concientizar a la comunidad académica sobre estas falencias y para motivar a la científicos a realizar ciencia abierta y reproducible. Aun así, la renuencia de las editoriales para solicitar a los investigadores los datos crudos de investigación continúa siendo un incentivo para que “investigadores” inescrupulosos tomen ventaja de ello.

Algunas perspectivas a futuro

En primer lugar, es tarea de las universidades formar investigadores íntegros y competentes. No lo están haciendo. Les están enseñando a calcular p-values con varios test estadísticos, no a realizar inferencia científica basada en modelos estadísticos informados y datos analizados adecuadamente. También es responsabilidad individual de los jóvenes investigadores formarse en el manejo y análisis de datos, ya que es el insumo principal para responder a sus preguntas de investigación. Es una responsabilidad ética y moral que todos debemos asumir con la comunidad científica y los contribuyentes (que somos todos) que pagan la investigación científica con impuestos. Es momento de salir del área de confort donde por calcular p-values escalamos en la carrera académica, y pasar a responder preguntas de investigación con las herramientas estadísticas adecuadas. Está en nuestras manos sacar a la ciencia del oscuro peñasco en el que permanece encallado por la inacción de los científicos y entidades académicas.

Por otra parte, considero que erradicar las revistas científicas hará más bien que mal a los propósitos de la ciencia. En la era del internet, no requerimos de compañías que se enriquezcan por subir a la nube PDFs de investigaciones financiadas en su mayoría con impuestos. Mucho menos, compañías que pongan por encima sus beneficios económicos, antes que el progreso del conocimiento. Los científicos pueden hacerse cargo de subir sus investigaciones con datos crudos para el escrutinio de la comunidad académica. Esto sin ningún intermediario que saque una buena tajada del asunto. Incluso, podrían explorarse otros formatos, como sitios web interactivos, que pueden resultar más favorables para compartir los resultados de investigación con la comunidad científica y el público. La difusión del conocimiento científico no debe estar atado a los intereses económicos de un grupo de compañías.

Fotografía: Formada usando los materiales de de rawpixel.com y prostooleh, via freepik.