AIエージェントがビジネスを動かすとき — Andon LabsのLukas PeterssonとAxel Backlund
Gemini and and open eye don't behave this way.
GeminiとOpenAIはこういう振る舞いをしない。
It's it's really only clo.
Claudeだけが
One example is like for lying it's mostly in its reasoning.
例えば嘘をつく場合、ほとんど推論の中で行われる。
Uh because you can like see that it's like
なぜなら、それがどういう状態か見えるから
planning to lie
嘘をつこうとしている
is planning to lie.
嘘をつこうとしている。
It's also it can reason and do a different outcome.
推論して別の結果を出すこともできる。
Yeah.
うん。
And but but then for like creating price cartels for example which is illegal
価格カルテルを作るような場合、これは違法だが
uh that you can just see which email does it send to to the other ones.
どのメールを他のエージェントに送ったか、確認できる。
Before we get into today's episode I just have a small message for listeners.
今日のエピソードの前に、リスナーへ少しお知らせがあります。
Thank you.
ありがとうございます。
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
皆さんが明らかに求めているAIエンジニアリング・科学・エンターテイメントのコンテンツをお届けできるのは、皆さんが選んでコンテンツを視聴してくれるおかげです。
We've been approached by sponsors on an almost daily basis.
スポンサーからはほぼ毎日アプローチがあります。
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
でも幸いなことに、広告なしで持続できるだけの人がサブスクライブしてくれていて、これを続けたいと思っています。
But I just have one favor to ask all of you.
一つだけお願いがあります。
The single most powerful, completely free thing you can do is to click that subscribe button.
完全に無料でできる最も効果的なことは、サブスクライブボタンをクリックすることです。
It's the only thing I'll ever ask of you.
それだけをお願いします。
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
毎週このショーをお届けするために懸命に働く私とチームにとって、本当に全てを意味します。
If you do it, I promise you, we'll never stop working to make the show even better.
もし登録してくれたら、ショーをさらに良くするための努力を絶対に止めません。
Now, let's get into it.
では始めましょう。
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Andon LabsのLukasとAxelをお迎えし、お気に入りのゲストコホストも参加しています。
anything security, safety, alignment.
セキュリティ、安全、アライメント全般について。
Uh, Vivu, uh, welcome.
Vibhu、ようこそ。
Thank you for having us.
ご招待ありがとうございます。
Thank you.
ありがとうございます。
Let's match names to voices.
名前と声を合わせましょう。
Uh, maybe you want to take turns introducing yourselves.
順番に自己紹介してもらえますか?
Yeah, I'm Lucas
はい、Lukasです。
and I'm Axel.
そしてAxelです。
Let's introduce Anden Labs a bit.
Andon Labsを少し紹介しましょう。
Like, how did you guys come together?
どうやって一緒になったんですか?
Um, you have different backgrounds, but you're both Swedish.
バックグラウンドは違うけど、二人ともスウェーデン出身ですよね。
Uh, was that like a big part of it?
それが大きなきっかけだったんですか?
Yeah.
うん。
So, when I went to high school, there was this really cool guy who had a superpower.
高校の時、ものすごい特技を持ったかっこいい人がいたんです。
He could code.
コードが書けた。
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
学校のウェブサイトとかアプリを作って、みんなに崇められていました。
Uh
ええっと
I don't know about this.
それは知らなかった。
So
そう
So you went to different universities, right?
大学は別々だったんですよね?
Yeah.
そう。
But same high school.
でも高校は一緒。
I see.
なるほど。
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
大学を卒業したら会社を作ろうって、ずっと言い続けていました。
Oh there you go.
そうなんだ。
Okay.
なるほど。
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
約1年前にVending-Benchで一気に注目されましたが、その前にきっかけになったことはありましたか?
Yeah.
うん。
Yeah.
うん。
So we did work uh with like anthropic was one of our early customers in doing valves.
初期の顧客の一つとしてAnthropicと危険な能力evalをやっていました。
So we did like dangerous capability valves.
危険な能力のevalですね。
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
公開はしていませんでしたが、何か公開ベンチマークを作ろうと考え始めました。
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
2025年初頭のこと、エージェントがビジネスを運営するという話が出始めていた頃です。
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
エージェントがおそらく最もシンプルなビジネスをどれだけうまく運営できるかというベンチマークを作ろうと考えました。
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
最初の公開版はほとんど誰にも気づかれなかった。
Uh so we listed in February last year and then I think around Easter last year.
去年の2月にリストして、イースター頃だったと思います。
We got like the first semiviral tweet about it uh that someone else did.
他の人が最初の半バイラルなツイートをしてくれました。
Yeah.
うん。
I mean we tweeted a bunch uh when it came out and like tried our best.
リリース時にたくさんツイートして、ベストを尽くしました。
We tried.
頑張った。
It's the one at anthropic, right?
Anthropicのやつですよね?
Yeah.
そう。
So this
これは
is is a classic thing we should get out of the way.
先に整理しておきたいことがあって。
Exactly.
そうそう。
There's two versions.
バージョンが2つあります。
Uh there's vending bench which is the simulated one which we did like completely independently in February.
シミュレーション版のVending-Benchがあって、これは去年2月に完全に独自で作ったものです。
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
Axelが言ったように、最初はほとんど注目されませんでした。
Correct.
その通り。
Yeah.
うん。
Um and then since we thought this was very fun, we thought like oh um
楽しかったので、次のことを考え始めました。
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
Andon Labsの進め方の一つとして、何をやるか決める時に使うヒューリスティックがあって
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
使っているヒューリスティックは「楽しいか」「面白いプロジェクトか」、そして「リアルでやるとかなり楽しそうで科学的にも有用かも」という基準です。
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
そこでこのアイデアが浮かんで、でも置き場所が問題だった。公共の場に置いたら壊されるだろうし、なかなか難しかった。
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
既に一緒に仕事していたAnthropicの人たちにピッチしたら、いいねと言ってくれました。
This sounds fun."
「楽しそう」と。
Um, I mean, it's like a small fridge, right?
小さい冷蔵庫ですよね?
It's like a mini fridge, you know, people.
ミニ冷蔵庫みたいな感じ。
There's like a stripe thing.
Stripeのやつがあって。
This was like OG the early one.
これは初期の初代バージョン。
Yeah.
うん。
on this.
そこで。
We saw it in June, like two 2 months after
2ヶ月後に見ました。
after it had been there.
設置後2ヶ月で。
They upgraded a little bit.
少しアップグレードされていた。
There's a security camera for making sure you actually Venmo the thing.
ちゃんとVenmoしたか確認するためのセキュリティカメラがある。
Yeah.
うん。
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
僕の印象は、Project Vendにいきなり入ります。
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Project Vendの前の起源の話も少し触れたい。
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
皆さんのように、AIの未来に興味を持つ賢い人たちが
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
どうやってAnthropicのドアをたたいて一緒に仕事できたのか。
what what works and then maybe like when you launch
何がうまくいったか、そしてローンチの時に
I always think like obviously it would be better to launch with a lab but uh sometimes
ラボと一緒にローンチする方が良いと思うけど、実際には
harder to do than it seems
見た目より難しい
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
そういった初心者的な疑問も含めて、どちらかでも教えてもらえますか?
yeah we we get this question a
この質問はよく受けます。
And I I don't think our experience is is maybe the best.
僕らの経験が最善かどうかはわかりません。
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
やったのは、確信を持って価値があると思うものをとにかく作ること。