Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreicd2qd76ty6vxwn2so4o2gu6xt3nfctat42j7e6r6gcq6nmkj2rtm",
    "uri": "at://did:plc:nzxbjsn5sorfisku4fyndjtw/app.bsky.feed.post/3mgvnofnvela2"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreidciew3roeabtenyt6mmkac35jsmykd7tem3mboudaqzgqzkqcmnq"
    },
    "mimeType": "image/webp",
    "size": 15844
  },
  "path": "/archivo/ia/basura-artificial-comentarios-reales-distinguir-slop-humanos.html",
  "publishedAt": "2026-03-13T00:15:23.000Z",
  "site": "https://www.microsiervos.com",
  "tags": [
    "Inteligencia artificial",
    "**Slop or Not**",
    "Vignesh",
    "¿Cuál está generado por una inteligencia artificial? En imágenes",
    "El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado",
    "Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas",
    "Un Test de Turing mínimo de una sola palabra",
    "El Test de Turing",
    " Enlace Permanente"
  ],
  "textContent": "\n\nNo es que sea una prueba de Turing, pero se le parece un poco: **Slop or Not** es un experimento planteado para separar el grano de la paja, **las respuestas humanas del _slop_ ,** ese estupendo nombre que se ha dado al «contenido basura generado por inteligencia artificial». Jugar es tan sencillo como leer las dos opciones y marcar la que te parezca _slop_ basuriento. Aviso: lo que no es tan fácil como parece es acertar.\n\nEste experimento online es una idea de Vignesh, que se preguntaba si la gente realmente distingue el slop de los contenidos auténticos**en los textos que habitualmente aparecen en internet** , no en «condiciones de laboratorio». Para ello utilizó preguntas y comentarios extraídos de Reddit, Hacker News y reseñas de Yelp (restaurantes, peluquerías, reseñas de películas…) En total son unas **13.000 pares de textos humanos+IA** filtrados a partir de unos 126 millones de textos.\n\n\n\n\n\nLos textos humanos ofrecen comparados con **seis versiones diferentes** generadas por modelos de **Anthropic** y **OpenAI** en 3 niveles de dificultad, usando LLMs cada vez más avanzados, desde Haiku 4.5 y GPT-4.1 Nano hasta Sonnet 4.6 y GPT-5.4. **En su formato juego** se empieza en modo fácil y se va avanzando de nivel cuando se aciertan tres veces seguidas. La partida termina si se falla 3 veces. Además de medir la precisión, los tiempos de respuesta y las rachas, el sistema busca analizar qué modelos «engañan mejor» y si el contexto en el que están planteados (el foro o sitio web) modifica la dificultad.\n\nYo me he esforzado y no he pasado del 80% de aciertos, que supongo que no está mal. Me pareció que un buen truco es buscar en los comentarios y reseñas un toque «personal» y anecdótico, pero no siempre hay algo apropiado. Y los argumentos y comentarios suelen ser bastante parecidos, además de que el estilo de escritura formal/informal adaptado a cada tema engaña bastante. El caso es que **da bastante rabia ver cómo a veces te la cuelan miserablemente** porque… son comentarios que parecen tan «humanos» como los de los humanos. Enséñale el juego a alguien que aborrezca los LLM y a ver qué opina.\n\nRelacionado:\n\n  * ¿Cuál está generado por una inteligencia artificial? En imágenes\n  * El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado\n  * Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas\n  * Un Test de Turing mínimo de una sola palabra \n  * El Test de Turing\n\n\n\n# Enlace Permanente",
  "title": "Basura artificial o comentarios humanos: un juego para distinguir las respuestas falsas de las reales"
}