{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreicd2qd76ty6vxwn2so4o2gu6xt3nfctat42j7e6r6gcq6nmkj2rtm",
"uri": "at://did:plc:nzxbjsn5sorfisku4fyndjtw/app.bsky.feed.post/3mgvnofnvela2"
},
"coverImage": {
"$type": "blob",
"ref": {
"$link": "bafkreidciew3roeabtenyt6mmkac35jsmykd7tem3mboudaqzgqzkqcmnq"
},
"mimeType": "image/webp",
"size": 15844
},
"path": "/archivo/ia/basura-artificial-comentarios-reales-distinguir-slop-humanos.html",
"publishedAt": "2026-03-13T00:15:23.000Z",
"site": "https://www.microsiervos.com",
"tags": [
"Inteligencia artificial",
"**Slop or Not**",
"Vignesh",
"¿Cuál está generado por una inteligencia artificial? En imágenes",
"El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado",
"Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas",
"Un Test de Turing mínimo de una sola palabra",
"El Test de Turing",
" Enlace Permanente"
],
"textContent": "\n\nNo es que sea una prueba de Turing, pero se le parece un poco: **Slop or Not** es un experimento planteado para separar el grano de la paja, **las respuestas humanas del _slop_ ,** ese estupendo nombre que se ha dado al «contenido basura generado por inteligencia artificial». Jugar es tan sencillo como leer las dos opciones y marcar la que te parezca _slop_ basuriento. Aviso: lo que no es tan fácil como parece es acertar.\n\nEste experimento online es una idea de Vignesh, que se preguntaba si la gente realmente distingue el slop de los contenidos auténticos**en los textos que habitualmente aparecen en internet** , no en «condiciones de laboratorio». Para ello utilizó preguntas y comentarios extraídos de Reddit, Hacker News y reseñas de Yelp (restaurantes, peluquerías, reseñas de películas…) En total son unas **13.000 pares de textos humanos+IA** filtrados a partir de unos 126 millones de textos.\n\n\n\n\n\nLos textos humanos ofrecen comparados con **seis versiones diferentes** generadas por modelos de **Anthropic** y **OpenAI** en 3 niveles de dificultad, usando LLMs cada vez más avanzados, desde Haiku 4.5 y GPT-4.1 Nano hasta Sonnet 4.6 y GPT-5.4. **En su formato juego** se empieza en modo fácil y se va avanzando de nivel cuando se aciertan tres veces seguidas. La partida termina si se falla 3 veces. Además de medir la precisión, los tiempos de respuesta y las rachas, el sistema busca analizar qué modelos «engañan mejor» y si el contexto en el que están planteados (el foro o sitio web) modifica la dificultad.\n\nYo me he esforzado y no he pasado del 80% de aciertos, que supongo que no está mal. Me pareció que un buen truco es buscar en los comentarios y reseñas un toque «personal» y anecdótico, pero no siempre hay algo apropiado. Y los argumentos y comentarios suelen ser bastante parecidos, además de que el estilo de escritura formal/informal adaptado a cada tema engaña bastante. El caso es que **da bastante rabia ver cómo a veces te la cuelan miserablemente** porque… son comentarios que parecen tan «humanos» como los de los humanos. Enséñale el juego a alguien que aborrezca los LLM y a ver qué opina.\n\nRelacionado:\n\n * ¿Cuál está generado por una inteligencia artificial? En imágenes\n * El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado\n * Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas\n * Un Test de Turing mínimo de una sola palabra \n * El Test de Turing\n\n\n\n# Enlace Permanente",
"title": "Basura artificial o comentarios humanos: un juego para distinguir las respuestas falsas de las reales"
}