Quando Agentes de IA Gerenciam Empresas — Lukas Petersson e Axel Backlund do Andon Labs
Gemini and and open eye don't behave this way.
Gemini e OpenAI não se comportam dessa forma.
It's it's really only clo.
É realmente só o Clau.
One example is like for lying it's mostly in its reasoning.
Um exemplo é que, para mentir, é principalmente no raciocínio dele.
Uh because you can like see that it's like
Porque você consegue ver que ele está tipo
planning to lie
planejando mentir
is planning to lie.
planejando mentir.
It's also it can reason and do a different outcome.
Mas ele também pode raciocinar e chegar a um resultado diferente.
Yeah.
Sim.
And but but then for like creating price cartels for example which is illegal
Mas aí para criar cartéis de preços, por exemplo, o que é ilegal,
uh that you can just see which email does it send to to the other ones.
você consegue ver exatamente qual e-mail ele manda para os outros.
Before we get into today's episode I just have a small message for listeners.
Antes de entrarmos no episódio de hoje, tenho uma mensagem rápida para os ouvintes.
Thank you.
Obrigado.
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
Não conseguiríamos trazer o conteúdo de engenharia, ciência e entretenimento de IA que vocês tanto querem se vocês não escolhessem acompanhar nosso conteúdo.
We've been approached by sponsors on an almost daily basis.
Temos recebido propostas de patrocinadores quase diariamente.
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
Mas felizmente, muitos de vocês assinam o canal, o que torna tudo isso sustentável sem anúncios, e queremos continuar assim.
But I just have one favor to ask all of you.
Mas tenho apenas um pedido para todos vocês.
The single most powerful, completely free thing you can do is to click that subscribe button.
A coisa mais poderosa e completamente gratuita que você pode fazer é clicar no botão de inscrever.
It's the only thing I'll ever ask of you.
É a única coisa que vou pedir.
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
E significa absolutamente tudo para mim e para a minha equipe, que trabalha tanto para trazer o Latent Space para vocês toda semana.
If you do it, I promise you, we'll never stop working to make the show even better.
Se vocês fizerem isso, prometo que nunca vamos parar de trabalhar para tornar o show ainda melhor.
Now, let's get into it.
Agora, vamos começar.
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Bem-vindos, Lucas e Axel, da Andon Labs, e estou acompanhado pelo meu co-host convidado favorito.
anything security, safety, alignment.
tudo sobre segurança, safety, alinhamento.
Uh, Vivu, uh, welcome.
Vibhu, bem-vindo.
Thank you for having us.
Obrigado pelo convite.
Thank you.
Obrigado.
Let's match names to voices.
Vamos associar nomes a vozes.
Uh, maybe you want to take turns introducing yourselves.
Que tal cada um se apresentar?
Yeah, I'm Lucas
Sim, eu sou o Lucas
and I'm Axel.
e eu sou o Axel.
Let's introduce Anden Labs a bit.
Vamos apresentar a Andon Labs um pouco.
Like, how did you guys come together?
Como vocês se juntaram?
Um, you have different backgrounds, but you're both Swedish.
Vocês têm backgrounds diferentes, mas os dois são suecos.
Uh, was that like a big part of it?
Isso foi uma parte importante?
Yeah.
Sim.
So, when I went to high school, there was this really cool guy who had a superpower.
Então, quando eu estava no ensino médio, tinha um cara muito legal que tinha um superpoder.
He could code.
Ele sabia programar.
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
Ele criou o site ou o app da escola e era super cool, eu queria ser como ele, e esse cara era esse aí.
Uh
Ah
I don't know about this.
Não sei sobre isso.
So
Então
So you went to different universities, right?
Então vocês foram para universidades diferentes, né?
Yeah.
Sim.
But same high school.
Mas a mesma escola.
I see.
Entendi.
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
A gente sempre dizia que quando nos formasse na universidade, a gente ia abrir uma empresa, e foi exatamente o que fizemos.
Oh there you go.
Ah, aí sim.
Okay.
Ok.
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
E há cerca de um ano vocês explodiram no cenário com o Vending-Bench, mas teve alguma coisa antes disso, como que foi o começo?
Yeah.
Sim.
Yeah.
Sim.
So we did work uh with like anthropic was one of our early customers in doing valves.
A gente trabalhou com a Anthropic, que foi um dos nossos primeiros clientes, fazendo evals.
So we did like dangerous capability valves.
A gente fez evals de capacidades perigosas.
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
Nada que publicamos abertamente, mas aí começamos a pensar em criar algum tipo de benchmark público, e uma coisa que realmente começamos a pensar foi sobre agentes de longa duração, especificamente agentes gerenciando negócios.
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
Era início de 2025, e acho que foi quando surgiram os primeiros comentários sobre pessoas rodando unicórnios solo ou até empresas autônomas.
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
Então pensamos: vamos criar um benchmark de como bem um agente consegue tocar o negócio provavelmente mais simples possível, e provavelmente é tocar uma máquina de vending.
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
Então esse foi o primeiro público que fizemos, e foi muito assim, quase ninguém percebeu nos primeiros meses.
Uh so we listed in February last year and then I think around Easter last year.
A gente lançou em fevereiro do ano passado e aí acho que lá pela Páscoa do ano passado
We got like the first semiviral tweet about it uh that someone else did.
a gente teve o primeiro tweet semi-viral sobre isso, feito por outra pessoa.
Yeah.
Sim.
I mean we tweeted a bunch uh when it came out and like tried our best.
Quer dizer, a gente tweetou bastante quando saiu e tentou o máximo.
We tried.
A gente tentou.
It's the one at anthropic, right?
É o da Anthropic, né?
Yeah.
Sim.
So this
Então
is is a classic thing we should get out of the way.
essa é uma coisa clássica que precisamos esclarecer.
Exactly.
Exatamente.
There's two versions.
Existem duas versões.
Uh there's vending bench which is the simulated one which we did like completely independently in February.
Tem o Vending-Bench, que é o simulado, feito completamente de forma independente em fevereiro.
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
E aí, como o Axel disse, esse foi o que não teve tração no começo, mas aí uma pessoa aleatória fez um tweet sobre isso, e esse é o paper.
Correct.
Correto.
Yeah.
Sim.
Um and then since we thought this was very fun, we thought like oh um
E como achamos muito divertido, pensamos: ah,
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
acho que isso é uma coisa da Andon Labs também, a forma como decidimos o que fazer a seguir e quais projetos tocar.
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
A heurística que usamos é: o que seria divertido? O que seria um projeto legal? E fazer isso na vida real pareceu bastante divertido e talvez também útil cientificamente.
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
Então tivemos essa ideia, mas precisávamos de um lugar, e colocar na rua pública provavelmente não funcionaria, seria vandalizado e tudo mais.
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
Então apresentamos para as pessoas com quem já estávamos trabalhando na Anthropic, e eles falaram: sim, vocês podem ter um espaço.
This sounds fun."
Isso parece divertido.
Um, I mean, it's like a small fridge, right?
É tipo uma pequena geladeira, né?
It's like a mini fridge, you know, people.
É tipo uma mini geladeira, sabe, pessoal.
There's like a stripe thing.
Tem uma coisa do Stripe.
This was like OG the early one.
Era tipo a primeira versão original.
Yeah.
Sim.
on this.
nessa.
We saw it in June, like two 2 months after
A gente viu em junho, tipo 2 meses depois
after it had been there.
de ela ter chegado lá.
They upgraded a little bit.
Eles melhoraram um pouco.
There's a security camera for making sure you actually Venmo the thing.
Tem uma câmera de segurança pra garantir que você realmente faça o Venmo.
Yeah.
Sim.
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
Então, tipo minha impressão, quer dizer, ok, estamos indo direto pro Project Vend porque é uma coisa icônica.
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Quero falar um pouco sobre a origem, antes mesmo do Project Vend e antes do Vending-Bench.
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
Acho que muita gente está na mesma situação que vocês, inteligente, interessada no futuro da IA, interessada em desenvolver evals,
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
mas como diabos você simplesmente entra pelas portas da Anthropic e trabalha com eles? O que eles procuram?
what what works and then maybe like when you launch
O que funciona, e aí talvez quando você vai lançar
I always think like obviously it would be better to launch with a lab but uh sometimes
acho que obviamente seria melhor lançar com um lab, mas às vezes
harder to do than it seems
é mais difícil do que parece
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
sim, exatamente, então qualquer uma dessas opções são mais perguntas de iniciante, mas acho que são conselhos significativos para outras pessoas
yeah we we get this question a
a gente recebe bastante essa pergunta
And I I don't think our experience is is maybe the best.
e acho que nossa experiência talvez não seja a melhor.
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
Mas o que a gente fez foi construir várias coisas que acreditávamos que seriam úteis.