Когда ИИ-агенты управляют бизнесом — Лукас Петерссон и Аксель Баклунд из Andon Labs
Gemini and and open eye don't behave this way.
Gemini и OpenAI так не ведут себя.
It's it's really only clo.
Это действительно только Cl...
One example is like for lying it's mostly in its reasoning.
Один из примеров: насчёт лжи, это проявляется в основном в его рассуждениях.
Uh because you can like see that it's like
Потому что можно видеть, что он как бы
planning to lie
планирует солгать
is planning to lie.
планирует солгать.
It's also it can reason and do a different outcome.
Он ещё и рассуждает, и может прийти к другому выводу.
Yeah.
Да.
And but but then for like creating price cartels for example which is illegal
А вот с созданием ценовых картелей, например, что незаконно,
uh that you can just see which email does it send to to the other ones.
можно просто посмотреть, какие письма он отправляет другим агентам.
Before we get into today's episode I just have a small message for listeners.
Перед сегодняшним выпуском у меня есть небольшое сообщение для слушателей.
Thank you.
Спасибо вам.
We would not be able to bring you the AI engineering, science, and entertainment content that you so clearly want if you didn't choose to also click in and tune into our content.
Мы не смогли бы приносить вам контент об AI-инженерии, науке и всём интересном, если бы вы не выбирали нас и не слушали.
We've been approached by sponsors on an almost daily basis.
К нам чуть ли не каждый день обращаются спонсоры.
But fortunately, enough of you actually subscribe to us to keep all this sustainable without ads, and we want to keep it that way.
Но к счастью, достаточно многие из вас подписываются на нас, чтобы всё это оставалось жизнеспособным без рекламы, и мы хотим сохранить это так.
But I just have one favor to ask all of you.
Но у меня к вам одна просьба.
The single most powerful, completely free thing you can do is to click that subscribe button.
Самое мощное и при этом абсолютно бесплатное, что вы можете сделать,, это нажать кнопку «Подписаться».
It's the only thing I'll ever ask of you.
Это единственное, о чём я когда-либо буду вас просить.
And it means absolutely everything to me and my team that works so hard to bring the inspace to you each and every week.
И это значит для меня и моей команды, которая так усердно работает, чтобы каждую неделю приносить вам шоу, абсолютно всё.
If you do it, I promise you, we'll never stop working to make the show even better.
Если вы это сделаете, обещаю: мы никогда не перестанем делать шоу ещё лучше.
Now, let's get into it.
Ну а теперь, поехали.
Welcome to Lucas and Axel from Anden Labs, and I'm joined by my favorite guest co-host.
Добро пожаловать, Лукас и Аксель из Andon Labs, и со мной мой любимый гость-ко-ведущий.
anything security, safety, alignment.
всё, что связано с безопасностью, защитой, alignment.
Uh, Vivu, uh, welcome.
Вибу, добро пожаловать.
Thank you for having us.
Спасибо, что пригласили нас.
Thank you.
Спасибо.
Let's match names to voices.
Давайте сопоставим имена и голоса.
Uh, maybe you want to take turns introducing yourselves.
Может, представитесь по очереди?
Yeah, I'm Lucas
Да, я, Лукас,
and I'm Axel.
а я Аксель.
Let's introduce Anden Labs a bit.
Расскажите немного про Andon Labs.
Like, how did you guys come together?
Как вы вообще оказались вместе?
Um, you have different backgrounds, but you're both Swedish.
У вас разный бэкграунд, но вы оба шведы.
Uh, was that like a big part of it?
Это сыграло большую роль?
Yeah.
Да.
So, when I went to high school, there was this really cool guy who had a superpower.
Когда я учился в старшей школе, там был один очень крутой парень, у которого была суперсила.
He could code.
Он умел программировать.
So he made like the the webs or like the app for the for the for the school and stuff and he was super cool and I wanted to be like him and that was that guy.
Он сделал сайт, или что-то вроде приложения, для школы и всё такое. Он был невероятно крут, и я хотел быть таким же. Это и был тот самый парень.
Uh
Э...
I don't know about this.
Я даже не знаю, стоит ли это рассказывать.
So
Так,
So you went to different universities, right?
вы учились в разных универах, верно?
Yeah.
Да.
But same high school.
Но в одной школе.
I see.
Понятно.
Uh so we always said like oh once we graduate university then then we we should start a company and that's what we did.
Мы всегда говорили: окончим универ, и откроем компанию. Что и сделали.
Oh there you go.
Вот как.
Okay.
Окей.
And about a year ago you kind of burst onto the scene with vending bench but like was there a thing be before that that was like kind of like the inception?
Примерно год назад вы громко заявили о себе с Vending Bench. Но было ли что-то до этого, что-то вроде отправной точки?
Yeah.
Да.
Yeah.
Да.
So we did work uh with like anthropic was one of our early customers in doing valves.
Мы работали с Anthropic, это был один из наших первых клиентов, над эвалами.
So we did like dangerous capability valves.
Делали эвалы опасных возможностей.
Uh nothing we published openly but then we started thinking about doing some kind of public benchmark and one thing that we really started thinking about uh was like longunning agents and specifically agents managing businesses.
Ничего публичного. А потом мы начали думать о каком-то публичном бенчмарке. И одна вещь, которую мы стали всерьёз рассматривать,, это долгосрочные агенты, особенно агенты, управляющие бизнесом.
um cuz and this was like early 2025 uh and I think this the first like you know mentions of people will be running like one person unicorns or even autonomous companies.
Это был примерно начало 2025 года, и тогда уже появились первые разговоры о том, что люди будут запускать компании-единороги в одиночку, или даже полностью автономные компании.
So we thought let's make a benchmark of how well can an agent run the probably simplest business uh possible and uh that's probably uh running a vending machine.
Мы подумали: давайте сделаем бенчмарк, насколько хорошо агент может управлять, наверное, самым простым бизнесом. И это, скорее всего, вендинговый автомат.
So that's the first public one we did and it was very like there was almost no one that noticed it in the first couple of months I think.
Так получился первый публичный бенчмарк. Поначалу его почти никто не заметил, первые пару месяцев, кажется.
Uh so we listed in February last year and then I think around Easter last year.
Мы выложили его в феврале прошлого года, а потом, примерно на Пасху,
We got like the first semiviral tweet about it uh that someone else did.
появился первый полувирусный твит, его написал кто-то другой.
Yeah.
Да.
I mean we tweeted a bunch uh when it came out and like tried our best.
Мы тоже твитили, когда вышло, старались изо всех сил.
We tried.
Мы старались.
It's the one at anthropic, right?
Это тот, что у Anthropic, да?
Yeah.
Да.
So this
Так,
is is a classic thing we should get out of the way.
это классика, которую надо разобрать.
Exactly.
Точно.
There's two versions.
Есть две версии.
Uh there's vending bench which is the simulated one which we did like completely independently in February.
Есть Vending Bench, симулированный, который мы сделали полностью независимо в феврале.
Um and then like Axel said that was like that was the thing that didn't get any traction in the beginning but then some random person made a tweet about it and that that is the paper.
Как сказал Аксель, это тот, что поначалу не имел никакого успеха, потом какой-то случайный человек написал о нём твит, и это та самая статья.
Correct.
Правильно.
Yeah.
Да.
Um and then since we thought this was very fun, we thought like oh um
Нам было очень весело, поэтому мы подумали:
I think this is also like one thing with under labs like the way we kind of like decide what to do next and what projects to do.
это тоже что-то вроде принципа Andon Labs, как мы решаем, что делать дальше.
It's like what is like the heristic we use is like what is fun is what would be a fun project and and doing this in real life sounded quite fun for us uh and maybe also scientifically useful.
Наша эвристика такая: что будет весёлым проектом? Сделать это в реальной жизни звучало довольно весело, и, возможно, научно полезно.
So, uh, then we basically had this idea and then we like, but then we needed a place for it and like putting it out in that public would probably not really work, uh, would get vandalized and stuff.
Идея появилась, но нужно было место. Ставить автомат прямо на улице не вариант, его бы обязательно вандализировали.
So, we we pitched it to to the people we were already working with at Antropic and they were like, "Yeah, you can have space.
Мы предложили идею людям в Anthropic, с которыми уже работали, и они сказали: «Да, можете занять место.
This sounds fun."
Звучит весело.»
Um, I mean, it's like a small fridge, right?
Ну, это маленький холодильник, верно?
It's like a mini fridge, you know, people.
Ну да, вроде мини-холодильника, знаете, люди...
There's like a stripe thing.
Там ещё что-то из Stripe есть.
This was like OG the early one.
Это оригинальный, самый первый.
Yeah.
Да.
on this.
Мы его видели.
We saw it in June, like two 2 months after
Мы увидели его в июне, примерно через 2 месяца после того,
after it had been there.
как он там появился.
They upgraded a little bit.
Его немного обновили.
There's a security camera for making sure you actually Venmo the thing.
Там есть камера наблюдения, чтобы убедиться, что вы действительно перевели деньги через Venmo.
Yeah.
Да.
So, like my impression, I mean, okay, we're we're going straight into project project van because it's such a iconic thing.
Моё впечатление такое: ладно, мы сразу переходим к проекту Project Vend, потому что это такая культовая вещь.
I do want to cover a little bit of that the origin story even before project van and even into vending bench.
Хочу немного затронуть историю создания, даже до Project Vend и до Vending Bench.
I I think a lot of people are like yourselves like smart interested in in future of AI interested in developing evals
Думаю, многие люди, похожие на вас, умные, интересующиеся будущим AI, разработкой эвалов,
but how the hell do you just like walk into enthropics doors and like work with them right like what what is the what are they looking for
как вообще просто так заходят к Anthropic и начинают с ними работать? Что они ищут?
what what works and then maybe like when you launch
А потом, когда вы запускаете что-то,
I always think like obviously it would be better to launch with a lab but uh sometimes
мне кажется, очевидно было бы лучше запускать с лабой, но иногда
harder to do than it seems
это сложнее, чем кажется,
yeah exactly so either either of those like which are more sort of newbie beginner questions but like I think it's meaningful advice to others
да, именно. Это базовые вопросы для новичков, но я думаю, это ценный совет для других.
yeah we we get this question a
Да, нас об этом часто спрашивают,
And I I don't think our experience is is maybe the best.
и я не уверен, что наш опыт, самый показательный пример.
Uh but like the way we did it was that we just built a bunch of things that we had conviction would be useful.
Мы просто делали то, в чём были уверены, что это будет полезно.