Wanneer AI-agenten bedrijven runnen — Lukas Petersson en Axel Backlund van Andon Labs
Gemini and and open eye don't behave this way.
Gemini en OpenAI gedragen zich niet zo.
It's it's really only clo.
Het is het echt alleen Claude.
One example is like for lying it's mostly in its reasoning.
Een voorbeeld: bij liegen zit het mostly in het redeneerproces.
Uh because you can like see that it's like
Want je kunt zien dat het zeg maar
planning to lie
van plan is te liegen
is planning to lie.
van plan is te liegen.
It's also it can reason and do a different outcome.
Het kan ook redeneren en een ander resultaat kiezen.
Yeah.
Ja.
And but but then for like creating price cartels for example which is illegal
Maar voor het vormen van prijskartels, wat illegaal is,
uh that you can just see which email does it send to to the other ones.
kun je gewoon zien welke e-mail het naar de anderen stuurt.
Before we get into today's episode I just have a small message for listeners.
Voordat we in de aflevering van vandaag duiken, heb ik een kort berichtje voor luisteraars.
Thank you.
Dankjewel.
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
We zouden jullie de AI engineering-, wetenschap- en entertainmentcontent die jullie duidelijk willen niet kunnen brengen als jullie er niet voor kozen om ook in te klikken en onze content te bekijken.
We've been approached by sponsors on an almost daily basis.
We worden op bijna dagelijkse basis benaderd door sponsors.
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
Maar gelukkig zijn er genoeg van jullie die zich echt abonneren om dit allemaal duurzaam te houden zonder advertenties, en dat willen we zo houden.
But I just have one favor to ask all of you.
Maar ik heb maar één gunst te vragen aan jullie allemaal.
The single most powerful, completely free thing you can do is to click that subscribe button.
Het enige en meest krachtige, volledig gratis ding dat je kunt doen is op die abonneerknop klikken.
It's the only thing I'll ever ask of you.
Het enige wat ik ooit van je zal vragen.
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
En het betekent absoluut alles voor mij en mijn team dat zo hard werkt om de Latent Space elke week bij jullie te brengen.
If you do it, I promise you, we'll never stop working to make the show even better.
Als je het doet, beloof ik je dat we nooit ophouden met werken om de show nog beter te maken.
Now, let's get into it.
Nou, laten we beginnen.
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Welkom aan Lukas en Axel van Andon Labs, en ik word vergezeld door mijn favoriete gast co-host.
anything security, safety, alignment.
alles op het gebied van security, safety, alignment.
Uh, Vivu, uh, welcome.
Eh, Vibhu, eh, welkom.
Thank you for having us.
Bedankt dat we er mogen zijn.
Thank you.
Dankjewel.
Let's match names to voices.
Laten we namen aan stemmen koppelen.
Uh, maybe you want to take turns introducing yourselves.
Eh, misschien willen jullie om beurten jezelf voorstellen.
Yeah, I'm Lucas
Ja, ik ben Lukas
and I'm Axel.
en ik ben Axel.
Let's introduce Anden Labs a bit.
Laten we Andon Labs even voorstellen.
Like, how did you guys come together?
Hoe zijn jullie bij elkaar gekomen?
Um, you have different backgrounds, but you're both Swedish.
Hm, jullie komen uit verschillende achtergronden, maar zijn allebei Zweeds.
Uh, was that like a big part of it?
Was dat zeg maar een belangrijk onderdeel ervan?
Yeah.
Ja.
So, when I went to high school, there was this really cool guy who had a superpower.
Dus, toen ik op de middelbare school zat, was er die echt coole jongen die een superkracht had.
He could code.
Hij kon programmeren.
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
Dus maakte hij de website, of zo, de app voor de school en zo, en hij was super cool en ik wilde zijn zoals hij, en dat was die jongen.
Uh
Eh
I don't know about this.
Ik weet niet hoor.
So
Dus
So you went to different universities, right?
Jullie zijn naar verschillende universiteiten gegaan, toch?
Yeah.
Ja.
But same high school.
Maar dezelfde middelbare school.
I see.
Ah, ik zie het.
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
Eh, dus we zeiden altijd van oh, zodra we afstuderen gaan we een bedrijf starten, en dat hebben we gedaan.
Oh there you go.
Oh, zo is dat.
Okay.
Oké.
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
En zo’n jaar geleden kwamen jullie een beetje uit het niets met Vending-Bench, maar was er daarvoor ook al iets, als een soort begin?
Yeah.
Ja.
Yeah.
Ja.
So we did work uh with like anthropic was one of our early customers in doing valves.
Dus we hebben gewerkt eh met Anthropic, dat was een van onze eerste klanten, voor het maken van evals.
So we did like dangerous capability valves.
Dus we deden dangerous capability evals.
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
Eh, niets wat we openbaar hebben gepubliceerd, maar toen begonnen we na te denken over een soort publieke benchmark, en één ding waar we echt over begonnen na te denken was lang-draaiende agents, en specifiek agents die bedrijven beheren.
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
Hm, want dit was begin 2025 eh, en ik denk dat dit de eerste eh, weet je, vermeldingen waren van mensen die zo’n eenpersoons-unicorn zouden runnen, of zelfs autonome bedrijven.
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
Dus dachten we, laten we een benchmark maken van hoe goed een agent het waarschijnlijk eenvoudigste bedrijf kan runnen, en dat is waarschijnlijk het runnen van een verkoopautomaat.
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
Dat was de eerste publieke die we deden, en het was erg zo… er was bijna niemand die het in de eerste paar maanden opmerkte, denk ik.
Uh so we listed in February last year and then I think around Easter last year.
Eh, dus we zetten hem online in februari vorig jaar, en dan denk ik rond Pasen vorig jaar.
We got like the first semiviral tweet about it uh that someone else did.
Kregen we de eerste semiviral tweet erover, eh, die iemand anders had gedaan.
Yeah.
Ja.
I mean we tweeted a bunch uh when it came out and like tried our best.
Ik bedoel, we twitterden een hoop eh toen het uitkwam en probeerden ons best te doen.
We tried.
We hebben het geprobeerd.
It's the one at anthropic, right?
De ene bij Anthropic, toch?
Yeah.
Ja.
So this
Dus dit
is is a classic thing we should get out of the way.
is een klassieker die we even uit de weg moeten ruimen.
Exactly.
Precies.
There's two versions.
Er zijn twee versies.
Uh there's vending bench which is the simulated one which we did like completely independently in February.
Eh, er is Vending-Bench, de gesimuleerde versie, die we volledig zelfstandig in februari hebben gedaan.
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
Hm, en dan, zoals Axel zei, dat was het ding dat aanvankelijk geen tractie kreeg, maar toen maakte een willekeurig iemand een tweet erover en dat is het paper.
Correct.
Klopt.
Yeah.
Ja.
Um and then since we thought this was very fun, we thought like oh um
Hm, en omdat we dit erg leuk vonden, dachten we, oh hm
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
ik denk dat dit ook zo'n ding is bij Andon Labs: de manier waarop we beslissen wat we als volgende doen en welke projecten we oppakken.
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
Het is zo van, de heuristiek die we gebruiken is: wat is leuk, wat zou een leuk project zijn, en dit in het echt doen klonk best leuk voor ons, eh, en misschien ook wetenschappelijk nuttig.
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
Dus eh, toen hadden we dit idee en toen wilden we, maar we hadden een plek nodig, en het openbaar neerzetten zou waarschijnlijk niet echt werken, eh, het zou worden gevandaliseerd en zo.
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
Dus pitchten we het aan de mensen waarmee we al werkten bij Anthropic, en die zeiden: "Ja, jullie mogen ruimte hebben.
This sounds fun."
Klinkt leuk."
Um, I mean, it's like a small fridge, right?
Hm, ik bedoel, het is toch een kleine koelkast?
It's like a mini fridge, you know, people.
Het is als een minikoelkast, weet je.
There's like a stripe thing.
Er is zo'n Stripe-ding.
This was like OG the early one.
Dit was de OG, de vroege versie.
Yeah.
Ja.
on this.
ervan.
We saw it in June, like two 2 months after
We zagen het in juni, zo'n 2 maanden nadat
after it had been there.
het er al stond.
They upgraded a little bit.
Ze hadden het een beetje uitgebreid.
There's a security camera for making sure you actually Venmo the thing.
Er is een beveiligingscamera om te controleren of je echt via Venmo betaalt.
Yeah.
Ja.
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
Dus, eh, mijn indruk, ik bedoel, oké, we gaan meteen naar Project Vend want het is zo'n iconisch ding.
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Ik wil ook even het verhaal achter Project Vend behandelen, zelfs vóór Project Vend en ook Vending-Bench.
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
Ik denk dat veel mensen net als jullie zijn: slim, geïnteresseerd in de toekomst van AI, geïnteresseerd in het ontwikkelen van evals,
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
maar hoe stap je zomaar Anthropics deuren binnen en werk je met ze samen, toch, wat zoeken ze,
what what works and then maybe like when you launch
wat werkt, en dan misschien, als je lanceert,
I always think like obviously it would be better to launch with a lab but uh sometimes
ik denk altijd dat het duidelijk beter is om met een lab te lanceren, maar soms
harder to do than it seems
moeilijker dan het lijkt
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
ja precies, dus een van beide, dat zijn meer beginnersvragen, maar ik denk dat het zinvol advies is voor anderen
yeah we we get this question a
ja, die vraag krijgen we een
And I I don't think our experience is is maybe the best.
En ik denk niet dat onze ervaring misschien de beste is.
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
Eh, maar de manier waarop wij het deden was dat we gewoon een boel dingen bouwden waarvan we overtuigd waren dat ze nuttig zouden zijn.