Johan63/istock/getty Images Plus a través de los modelos clave de Takeawaysai de Takeawaysai de Getty ImageszDnet no proporcionan una salida segura y precisa sobre temas médicos. navegadores. A pesar de los numerosos avances de IA en medicina citados en toda la literatura académica, todos los programas de IA generativos no pueden producir una producción segura y precisa cuando se trata de temas médicos, de acuerdo con un nuevo informe de Startup DataTecnica y Card, las instituciones nacionales de los Estados Unidos del Centro de Salud para Alzheimer e Instituto Medicino, el Instituto Nacional, el Instituto Nacional, el hallazgo, el hallazgo es especialmente, lo que se concede a las personas que se dan a la gente a las personas que van a la gente que viene a la gente de Alzheimer’s para BOTS para el Contento de Medicina y el Medicino. e investigación muestra que las personas confían en los consejos médicos de la IA sobre el consejo de los médicos, incluso cuando está mal. También: los pacientes confían en los consejos médicos de la IA sobre los médicos: incluso cuando está mal, el estudio encuentra el nuevo estudio, comparando el GPT-5 de OpenAI con numerosos modelos de Google, antrópico y meta en un punto de referencia de ciencias médicas, cardbiomedbenchbench, hallazgos «en los hallazgos de los hallazgos biorales de verdad. El suite de referencia CardBiomedBench, un punto de referencia de preguntas y respuestas para evaluar LLM en investigación biomédica, fue presentado a principios de este año en una colaboración entre DataTecnuca e investigadores de tarjetas (Disclosura: Ziff Davis, la compañía matriz de ZDNET, presentó una demanda de abril 2025 contra Opción Agai, alegando que el Ziff Copyrights en Copyrights en Copyrights en Copyrights en Copyrights en Copyrights. La brecha de conocimiento en la medicina «Ningún modelo actual cumple de manera confiable con el razonamiento y las demandas de conocimiento específicas del dominio de los científicos biomédicos», según la tarjeta de Datatecnica y NIH. El informe concluye que los modelos actuales son simplemente demasiado fuscos para satisfacer los estándares de la medicina: «Esta brecha fundamental se destaca la creciente desacuerdo entre las capacidades generales de AI y las necesidades de las necesidades de las comunidades especializadas de biomedicidad. Conocimiento complejo y en evolución del mundo real. La tarjeta de DataTecnica + NIH, el estudio se hace eco de los hallazgos de otras pruebas de referencia relacionadas con la medicina. Por ejemplo, en mayo, OpenAI presentó HealthBench, un conjunto de indicaciones de texto sobre situaciones y afecciones médicas que una persona que busca consejos médicos. Ese estudio encontró que «Si bien el rendimiento ha mejorado con el tiempo, incluido el rendimiento y la confiabilidad ajustados por costos, todavía existe un espacio para la cabeza significativo en la capacidad de los modelos actuales para participar en conversaciones y flujos de trabajo relacionados con la salud». Además: el bancio de la salud de OpenAi muestra que el asesoramiento médico de la IA está mejorando con los modelos de referencia de referencia. Lmarena y DataTecnica Plan para expandir lo que se llama Biomedarena, una tabla de clasificación que permite a las personas comparar modelos de IA una al lado de la otra y votar sobre cuáles realizan lo mejor. También: Meta’s Llama 4 ‘Herd’ contaminación y contaminación de IA, Biomedarena, explicada por las cuestiones médicas, en lugar de las preguntas generales, a diferencia de General-Purpose-PurposeBoards. Señalan que en el programa de investigación intramural de los Institutos Nacionales de Salud de los EE. UU. «Cuando los científicos realizan proyectos de alto riesgo y alto recompensa que a menudo están más allá del alcance de la investigación académica tradicional debido a su escala, complejidad o demandas de recursos». El trabajo de Biomedarena, de acuerdo con el equipo de Lmarena, se enfoca en el enfoque de las tareas y las estrategias de evaluación fundamentadas en las realidades diarias de la biomedicidad del descubrimiento biomedical de biomedical de biomedical de descubrimiento de biomedicical de biomena. in hypothesis generation and clinical translation.»Also: You can track the top AI image generators via this new leaderboard – and vote for your favorite tooAs related back in June by ZDNET’s Webb Wright, LMArena was originally founded as a research initiative through UC Berkeley with the name Chatbot Arena, and has since become a full-fledged platform, with financial support from UC Berkeley, a16z, Sequoia Capital, and En otro lugar. ¿Dónde podrían salir mal? Dos grandes preguntas se asientan para este nuevo esfuerzo de referencia. Primero, los estudios con médicos han demostrado que la utilidad de la generación de la Generación AI se expande drásticamente cuando los modelos de IA se conectan a bases de datos de información médica «estándar doradas», con modelos de lenguaje grande dedicados (LLM) capaces de superar los modelos fronterizos superiores simplemente aprovechando la información. Además: enganchar la IA generativa a los datos médicos mejorados para los médicos del anuncio de hoy, no está claro cómo Lmarena y DataTecnica planean abordar ese aspecto de los modelos de IA, que realmente es un tipo de capacidad de agente: la capacidad de aprovechar los recursos. Sin medir cómo los modelos de IA usan recursos externos, el punto de referencia podría tener utilidad limitada. Segundo y numerosos LLM específicos de medicina se están desarrollando todo el tiempo, incluido el programa «MedPalm» de Google desarrollado hace dos años. No está claro si el trabajo de Biomedarena tendrá en cuenta estos LLM de medicina dedicada. El trabajo hasta ahora ha probado solo modelos generales de frontera. Además: Medpalm de Google enfatiza a los médicos humanos en la opción médica de Aithat es una opción perfectamente válida por parte de Lmarena y DataTecnica, pero sí deja de lado mucho un esfuerzo importante.