Cuando los agentes de IA gestionan empresas — Lukas Petersson y Axel Backlund de Andon Labs
Gemini and and open eye don't behave this way.
Gemini y OpenAI no se comportan de esta manera.
It's it's really only clo.
Es realmente solo Cla.
One example is like for lying it's mostly in its reasoning.
Un ejemplo es que para mentir, ocurre principalmente en su razonamiento.
Uh because you can like see that it's like
Porque puedes ver que está como
planning to lie
planeando mentir
is planning to lie.
está planeando mentir.
It's also it can reason and do a different outcome.
También puede razonar y llegar a un resultado diferente.
Yeah.
Sí.
And but but then for like creating price cartels for example which is illegal
Pero para crear cárteles de precios, por ejemplo, lo cual es ilegal,
uh that you can just see which email does it send to to the other ones.
puedes ver directamente qué correo electrónico le envía a los demás.
Before we get into today's episode I just have a small message for listeners.
Antes de entrar en el episodio de hoy, tengo un pequeño mensaje para los oyentes.
Thank you.
Gracias.
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
No podríamos traerles el contenido de ingeniería de IA, ciencia y entretenimiento que tan claramente desean si no eligieran hacer clic y sintonizar nuestro contenido.
We've been approached by sponsors on an almost daily basis.
Nos han contactado patrocinadores casi a diario.
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
Pero afortunadamente, suficientes de ustedes se suscriben para que todo esto sea sostenible sin anuncios, y queremos mantenerlo así.
But I just have one favor to ask all of you.
Solo tengo un favor que pedirles a todos.
The single most powerful, completely free thing you can do is to click that subscribe button.
Lo más poderoso y completamente gratuito que pueden hacer es hacer clic en ese botón de suscripción.
It's the only thing I'll ever ask of you.
Es lo único que les pediré.
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
Y significa absolutamente todo para mí y mi equipo, que trabaja tan duro para traerles el show cada semana.
If you do it, I promise you, we'll never stop working to make the show even better.
Si lo hacen, les prometo que nunca dejaremos de trabajar para mejorar el programa.
Now, let's get into it.
Ahora, vamos al grano.
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Bienvenidos Lucas y Axel de Andon Labs, y me acompaña mi coanfitrión invitado favorito.
anything security, safety, alignment.
todo lo de seguridad, safety, alineación.
Uh, Vivu, uh, welcome.
Vibhu, bienvenido.
Thank you for having us.
Gracias por tenernos.
Thank you.
Gracias.
Let's match names to voices.
Pongamos nombres a las voces.
Uh, maybe you want to take turns introducing yourselves.
A ver, ¿quieren presentarse por turnos?
Yeah, I'm Lucas
Sí, soy Lucas
and I'm Axel.
y yo soy Axel.
Let's introduce Anden Labs a bit.
Hablemos un poco de Andon Labs.
Like, how did you guys come together?
¿Cómo se juntaron ustedes?
Um, you have different backgrounds, but you're both Swedish.
Tienen trasfondos diferentes, pero ambos son suecos.
Uh, was that like a big part of it?
¿Eso fue una parte importante?
Yeah.
Sí.
So, when I went to high school, there was this really cool guy who had a superpower.
Cuando fui al bachillerato, había un tipo muy cool que tenía un superpoder.
He could code.
Sabía programar.
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
Hizo la web y la app de la escuela y era muy popular, y yo quería ser como él. Y ese era él.
Uh
Eh.
I don't know about this.
No sabía esto.
So
O sea.
So you went to different universities, right?
Fueron a universidades distintas, ¿verdad?
Yeah.
Sí.
But same high school.
Pero mismo bachillerato.
I see.
Ya veo.
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
Siempre dijimos: cuando terminemos la universidad, montamos una empresa. Y eso fue lo que hicimos.
Oh there you go.
Ahí vamos.
Okay.
Okay.
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
Hace como un año irrumpieron en escena con Vending-Bench, pero ¿hubo algo antes que fue como el origen?
Yeah.
Sí.
Yeah.
Sí.
So we did work uh with like anthropic was one of our early customers in doing valves.
Trabajamos con Anthropic, que fue uno de nuestros primeros clientes, haciendo evals.
So we did like dangerous capability valves.
Hicimos evals de capacidades peligrosas.
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
Nada que publicáramos abiertamente, pero luego empezamos a pensar en hacer algún tipo de benchmark público, y algo que de verdad nos empezó a rondar fue los agentes de largo horizonte, específicamente agentes gestionando negocios.
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
Esto era a principios de 2025, y creo que las primeras menciones de personas que hablarían de unicornios de una sola persona o empresas autónomas.
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
Pensamos: hagamos un benchmark de qué tan bien puede un agente gestionar el negocio probablemente más simple posible, y eso probablemente es operar una máquina expendedora.
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
Ese fue el primero público que hicimos, y casi nadie lo notó en los primeros meses, creo.
Uh so we listed in February last year and then I think around Easter last year.
Lo publicamos en febrero del año pasado y creo que alrededor de Semana Santa.
We got like the first semiviral tweet about it uh that someone else did.
Tuvimos el primer tweet semiviral sobre eso, que hizo otra persona.
Yeah.
Sí.
I mean we tweeted a bunch uh when it came out and like tried our best.
Tweeteamos bastante cuando salió y lo intentamos.
We tried.
Lo intentamos.
It's the one at anthropic, right?
El que está en Anthropic, ¿verdad?
Yeah.
Sí.
So this
O sea, esto
is is a classic thing we should get out of the way.
es algo clásico que debemos aclarar.
Exactly.
Exacto.
There's two versions.
Hay dos versiones.
Uh there's vending bench which is the simulated one which we did like completely independently in February.
Está Vending-Bench, que es el simulado, que hicimos de forma completamente independiente en febrero.
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
Y como dijo Axel, eso fue lo que no tuvo tracción al principio, pero luego alguien random hizo un tweet sobre eso, y ese es el paper.
Correct.
Correcto.
Yeah.
Sí.
Um and then since we thought this was very fun, we thought like oh um
Y como nos pareció muy divertido, pensamos: ah, ya.
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
Creo que esto es también algo de Andon Labs: cómo decidimos qué hacer y en qué proyectos meterse.
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
La heurística que usamos es qué sería un proyecto divertido. Y hacer esto en la vida real nos pareció bastante divertido, y quizás también científicamente útil.
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
Entonces tuvimos la idea, pero necesitábamos un lugar, y ponerlo en público probablemente no funcionaría, se vanalizaría y todo eso.
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
Así que se lo propusimos a la gente con la que ya trabajábamos en Anthropic y dijeron: sí, tienen espacio.
This sounds fun."
Suena divertido.
Um, I mean, it's like a small fridge, right?
O sea, es como un pequeño refrigerador, ¿no?
It's like a mini fridge, you know, people.
Es como una nevera pequeña, ya saben.
There's like a stripe thing.
Tiene como un lector de Stripe.
This was like OG the early one.
Ese era el original, el primero.
Yeah.
Sí.
on this.
de esto.
We saw it in June, like two 2 months after
Lo vimos en junio, como 2 meses después
after it had been there.
de que llevaba ahí.
They upgraded a little bit.
Lo mejoraron un poco.
There's a security camera for making sure you actually Venmo the thing.
Hay una cámara de seguridad para asegurarse de que realmente haces el Venmo.
Yeah.
Sí.
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
Mi impresión, o sea, bien, vamos directo a Project Vend porque es algo icónico.
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Quiero cubrir un poco la historia de origen incluso antes de Project Vend y de Vending-Bench.
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
Creo que mucha gente es como ustedes: inteligente, interesada en el futuro de la IA, en desarrollar evals.
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
Pero ¿cómo demonios llegas a la puerta de Anthropic y trabajas con ellos? ¿Qué buscan?
what what works and then maybe like when you launch
Qué funciona, y luego quizás cuando lanzas.
I always think like obviously it would be better to launch with a lab but uh sometimes
Siempre pienso que obviamente sería mejor lanzar con un laboratorio, pero a veces
harder to do than it seems
es más difícil de lo que parece.
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
Sí, exacto. Cualquiera de esas, son preguntas más de principiante, pero creo que son consejos con significado para otros.
yeah we we get this question a
Sí, nos preguntan esto mucho.
And I I don't think our experience is is maybe the best.
Y creo que nuestra experiencia quizás no sea la mejor.
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
Pero lo que hicimos fue construir un montón de cosas en las que teníamos convicción de que serían útiles.