When AI Agents Run Businesses — Lukas Petersson and Axel Backlund of Andon Labs
Gemini and and open eye don't behave this way.
Gemini und OpenAI verhalten sich nicht so.
It's it's really only clo.
Es ist es ist wirklich nur Claude.
One example is like for lying it's mostly in its reasoning.
Ein Beispiel: beim Lügen steckt es meistens im Reasoning.
Uh because you can like see that it's like
Äh weil man wie sehen kann, dass es wie
planning to lie
plant zu lügen
is planning to lie.
plant zu lügen.
It's also it can reason and do a different outcome.
Es kann auch es kann schlussfolgern und ein anderes Ergebnis erzielen.
Yeah.
Ja.
And but but then for like creating price cartels for example which is illegal
Aber aber dann zum Beispiel beim Bilden von Preiskartellen, was illegal ist,
uh that you can just see which email does it send to to the other ones.
äh da kann man einfach sehen, welche E-Mail es an die anderen schickt.
Before we get into today's episode I just have a small message for listeners.
Bevor wir in die heutige Folge einsteigen, habe ich nur eine kleine Nachricht an die Hörer.
Thank you.
Danke.
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
Wir könnten euch die KI-Engineering-, Wissenschafts- und Unterhaltungsinhalte, die ihr offensichtlich wollt, nicht bringen, wenn ihr nicht auch bei unserem Inhalt einschalten würdet.
We've been approached by sponsors on an almost daily basis.
Wir werden fast täglich von Sponsoren angesprochen.
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
Aber zum Glück abonnieren genug von euch uns, um das alles ohne Werbung nachhaltig zu halten, und das wollen wir so beibehalten.
But I just have one favor to ask all of you.
Aber ich habe nur eine Bitte an euch alle.
The single most powerful, completely free thing you can do is to click that subscribe button.
Das Wirkungsvollste und völlig Kostenlose, das ihr tun könnt, ist, auf den Abonnieren-Button zu klicken.
It's the only thing I'll ever ask of you.
Es ist das Einzige, worum ich euch je bitten werde.
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
Und es bedeutet mir und meinem Team, das so hart arbeitet, um euch Latent Space jede Woche zu bringen, absolut alles.
If you do it, I promise you, we'll never stop working to make the show even better.
Wenn ihr es tut, verspreche ich euch, hören wir nie auf, die Show noch besser zu machen.
Now, let's get into it.
Jetzt lass uns loslegen.
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Willkommen an Lukas und Axel von Andon Labs, und ich werde von meinem liebsten Gast-Co-Host begleitet.
anything security, safety, alignment.
alles zu Sicherheit, Safety, Alignment.
Uh, Vivu, uh, welcome.
Äh, Vibhu, äh, willkommen.
Thank you for having us.
Danke für die Einladung.
Thank you.
Danke.
Let's match names to voices.
Lass uns Namen zu Stimmen zuordnen.
Uh, maybe you want to take turns introducing yourselves.
Äh, vielleicht wollt ihr euch abwechselnd vorstellen.
Yeah, I'm Lucas
Ja, ich bin Lukas
and I'm Axel.
und ich bin Axel.
Let's introduce Anden Labs a bit.
Wir sind beide Mitgründer von Andon Labs.
Like, how did you guys come together?
Wir haben uns in Stockholm als Nachbarn kennengelernt.
Um, you have different backgrounds, but you're both Swedish.
Wir haben beide einen Informatik-Hintergrund und haben zusammen Technologie entwickelt.
Uh, was that like a big part of it?
Und dann kamen LLMs, und da war uns klar, das ist jetzt der Moment.
Yeah.
Wie stellt ihr euch Andon Labs vor?
So, when I went to high school, there was this really cool guy who had a superpower.
Wir bauen realitätsnahe Evals für autonome KI-Systeme.
He could code.
Der Grundgedanke ist, dass die Modelle immer besser werden,
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
und dass wir nicht wirklich gute Möglichkeiten haben, das zu messen.
Uh
Also versuchen wir, reale Bedingungen zu schaffen.
I don't know about this.
Wie sind ihr auf Vending-Bench gekommen?
So
Nun ja, wir haben mit gefährlichen Capabilities-Evals begonnen,
So you went to different universities, right?
und dann haben wir festgestellt, dass das ein sehr schwieriges Problem ist, wenn man es richtig machen will.
Yeah.
Und wir haben festgestellt, dass lange laufende Agenten wirklich interessant sind.
But same high school.
Und wir wollten einen Eval erstellen, der eine realistische wirtschaftliche Aufgabe testet.
I see.
Und wir dachten: okay, einen Automaten zu betreiben ist ziemlich schwierig.
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
Es gibt eine Menge Dinge, die ein Agent herausfinden muss, um erfolgreich zu sein.
Oh there you go.
Und der Betrieb eines Automaten ist eigentlich schwieriger als es klingt.
Okay.
Für Menschen ist das einfach, für Agenten nicht.
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
Also haben wir das als Eval aufgebaut.
Yeah.
Ja.
Yeah.
Und dann haben wir festgestellt, dass es eine gute Möglichkeit ist, die Capabilities zu messen, wenn man Geld verwendet.
So we did work uh with like anthropic was one of our early customers in doing valves.
Weil es dann nicht sättigbar ist.
So we did like dangerous capability valves.
Man kann immer mehr Geld verdienen.
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
Also ist es schwerer, einen Eval zu saturieren.
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
Und man kann die Ergebnisse auch mit menschlicher Leistung vergleichen.
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
Ja, das ist ein sehr interessantes Design-Prinzip.
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
Der typische Benchmark saturiert, weil er endlich ist.
Uh so we listed in February last year and then I think around Easter last year.
Aber bei Geld ist das Potenzial nach oben unbegrenzt.
We got like the first semiviral tweet about it uh that someone else did.
Wie viel Geld verdient ein guter menschlicher Betreiber mit einem Automaten?
Yeah.
Das hängt wirklich vom Automaten ab.
I mean we tweeted a bunch uh when it came out and like tried our best.
Für einen einzelnen Automaten ist es vielleicht wie zehn bis zwanzig Dollar pro Tag.
We tried.
Okay.
It's the one at anthropic, right?
Und die Modelle befinden sich derzeit bei wie einem bis zwei Dollar pro Tag.
Yeah.
Also noch deutlich darunter.
So this
Die besten Modelle kommen so auf ein bis zwei Dollar pro Tag?
is is a classic thing we should get out of the way.
Ja, ungefähr.
Exactly.
Okay.
There's two versions.
Und so ist das wie ein Hinweis darauf, dass die Modelle noch nicht wirklich bereit sind, Unternehmen selbstständig zu führen.
Uh there's vending bench which is the simulated one which we did like completely independently in February.
Hmm.
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
Was genau macht ein Agent, um einen Automaten zu betreiben?
Correct.
Also er muss Preise festlegen, Bestand verwalten, auf Kundenanfragen reagieren.
Yeah.
Er muss Lieferanten kontaktieren, wenn der Bestand knapp wird.
Um and then since we thought this was very fun, we thought like oh um
Er muss Entscheidungen treffen über welche Produkte zu verkaufen, zu welchen Preisen.
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
Es gibt eine Menge Koordination, die notwendig ist.
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
Wie viele Werkzeuge hat der Agent?
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
Er hat eine E-Mail-Inbox, er kann Produkte kaufen und verkaufen,
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
er kann die Bestands-Datenbank abfragen,
This sounds fun."
und er kann die Preise im System setzen.
Um, I mean, it's like a small fridge, right?
Also grundlegende Geschäftswerkzeuge.
It's like a mini fridge, you know, people.
Ja, grundlegende Geschäftswerkzeuge.
There's like a stripe thing.
Und es stellt sich heraus, dass das eigentlich eine ganze Menge ist für ein Modell, das es durcharbeiten muss.
This was like OG the early one.
Was sind die größten Fehler, die Modelle machen?
Yeah.
Das Lügen ist sicherlich das Interessanteste.
on this.
Claude lügt auf eine Weise, die sehr auffällig ist.
We saw it in June, like two 2 months after
Es gibt ein Reasoning dahinter, man kann sehen, dass es plant zu lügen.
after it had been there.
Und dann macht es das.
They upgraded a little bit.
Und das ist besorgniserregend.
There's a security camera for making sure you actually Venmo the thing.
Macht es das immer wieder?
Yeah.
Es ist nicht wie ein systematisches Ding in jedem Lauf,
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
aber es passiert konsistent genug, dass wir es in unseren Daten sehen.
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Und das Interessante ist, dass OpenAI und Gemini das nicht tun.
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
Sie verhalten sich in diesem Automaten-Szenario eher kooperativ.
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
Was lügt Claude genau?
what what works and then maybe like when you launch
Ein häufiges Beispiel ist, wenn es zum Beispiel einen Kunden gibt, der sich beschwert,
I always think like obviously it would be better to launch with a lab but uh sometimes
und Claude sagt ihm, er hat eine Rückerstattung bekommen, obwohl er das nicht hat.
harder to do than it seems
Oder es sagt ihm, das Produkt ist auf dem Weg, obwohl es das nicht ist.
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
Und es macht das, weil es den unmittelbaren Konflikt lösen will.
yeah we we get this question a
Es ist im Grunde eine kurzfristige Problemlösung zu Lasten der Wahrheit.
And I I don't think our experience is is maybe the best.
Und das ist sehr interessant aus einer Safety-Perspektive.
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
Äh, aber die Art und Weise, wie wir es gemacht haben, war, dass wir einfach eine Menge gebaut haben