Original title: 배우는 것, 빌드 및 AI 공격 (2026)
이 게시물은 우리의 특별한 적용 시리아 Protests 2011의 일부입니다
Peggy Block Beats의 사진

편집기 프레스 : AI Agent 필드는 합의의 도구 폭발 및 부족의 기간에 입력됩니다。

매주, 새로운 프레임 워크, 새로운 모델, 새로운 벤치 마크 및 새로운 "10 번 더 효율적인"제품이 나타났지만 정말 중요한 질문은 "모든 변경으로 유지하는 방법"이 아니라 "투자 할 가치가있는 것"입니다。

저자의 s 전망에서, 그것은 최신 기구가 아닙니다, 그러나 더 낮은 수용량은, 그것, 그것입니다, 기술 창고가 rewritten인 현재 시간에 있는 진짜 장기 탄력입니다: "context engineering," 도구 디자인, eval system, Orchestra-subagent mode, sandbox 및 자연 사고라고합니다. 이 기능은 신속하게 모델에 실패하지 않지만 신뢰할 수있는 AIAgent를 구축하기위한 기초를 형성합니다。

기사는 AI Agent가 "Qualifications"의 의미를 변경하는 것입니다. 과거에, 학문적 자격, 급료 및 년은 입장 통행이었습니다; 그러나, 거인이 공개적으로 잘못되었던 지역에, CVs는 더 이상 문서가 없었습니다. 무엇을 했습니까? 배달 된 것은 더 중요합니다。

따라서이 종이는 AI Agent가 2026 년에 배운 것을 토론하는 것뿐만 아니라 그가 사용하는 것, 그가 넘어가는 것, 그러나 노후화, 증가하는 소음의 시대, 가장 스카프 용량은 학습 가치가 무엇인지 판단하고 지속적으로 무언가를 정말 유용합니다。

다음은 원본 텍스트입니다:

매일 새로운 프레임 워크, 새로운 벤치 마크, 새로운 "10 번 더 효율적인"제품이 등장합니다. 질문은 더 이상 "어떻게 유지"하지만: 거기에 실제 신호이며 긴급한 감각의 소음은 무엇입니까。

각 도로 지도는, 그 간행 후에 1 달, 쓸모가 있을지도 모릅니다. 당신은 단지 마지막 쿼터가 지금 오래된. 최적화하는 데 사용되는 벤치 마크는 페인트 및 교체 신속하게되었습니다. 과거에, 우리는 전통적인 경로를 따르기 위하여 훈련되었습니다: themes와 층의 클러스터에 대응하는 기술 창고; 일 경험, 대응 년 및 제목의 시리즈; 그리고 느린 단계. 그러나 AI는이 캔버스를 다시 씁니다. 오늘, 힌트가 정확하고 미적 평가로, 사람은 2 년의 경험을 가진 엔지니어가해야 할 일을 전달할 수 있습니다。

직업적인 수용량은 중요합니다. 당신은 시스템을보고 대용이 없습니다, 기억 누출과 아침에 두 시, 그리고 당신은 공공의 밖으로 얻을 수있을 수 있다는 사실에 대 한 대용이없고 보링을 선택 하지만 올바른 솔루션, 그리고 그것은 적절 한 증명. 이러한 판단은 값으로 증가합니다. 그러나 과거와 같이 추가하지 않는 것은 이번 주 핫 프레임 API 표면과의 친밀감입니다. 6 개월 후 다시 변경 될 수 있습니다. 실제 우승자는 2 년 후 내구성의 기본을 선택했으며 통과 할 다른 소음을 허용했다。

지난 2 년 동안이 지역에 제품을 구축하고 있으며 연간 $ 250,000 이상을 얻고 숨겨진 회사에 기술 담당하고 있습니다. 누군가가 나를 묻고 있다면, "지금 치료해야 합니까?" 그게 내가 그에게 보낼 것입니다。

이것은 도로지도가 아닙니다. 에이전트 필드는 아직 명확한 목적지를 주지 않았습니다. 큰 공장 실험실은 또한 열려있고, 반환 문제점을 사용자, rewriting 및 온라인 헝겊 조각의 수백만에 직접 밀어. Claude Code 뒤에 팀은 retreat에 성능의 47%를 일으키는 버전을 게시 할 수 있으며, 사용자 커뮤니티가 문제를 발견 할 때까지, " 안정적인지도가 아래에 존재합니다"의 아이디어는 소설입니다. 모두 여전히 검색. start-ups의 기회는 거인이 대답을 알지 못하기 때문에 정확합니다. 코드를 작성할 수없는 사람들은 angents와 협력하고 M.D.가 불가능하다고 생각합니다。

이 순간에 대한 가장 흥미로운 것은 자격의 이해를 변경하는 것입니다. 전통적인 경로는 자격에 의해 최적화된다:도, 주니어 위치, 고위 위치, 고위 게시물, 그리고 천천히 축적 된 게시물. 아래 영역에서 급진적 변화가 없을 때만 정의됩니다. 그러나 지금, 아래 지상은 모두의 발에서 동일한 속도로 이동. 22 세 사이의 간격, 공개적으로 발표 된 에이전트 데모 및 35 세 수석 엔지니어는 수십 년의 기술 축적이 없습니다. 이 22 세 및 수석 엔지니어는 같은 빈 캔버스에 직면하고 있습니다. 그(것)들을 위해, 성장의 진짜 회복은 지속 가능한 기초에 전달하는 기인성이고, 그 분수는 쿼터 안에 쓸모 없는 기본적인 수용량입니다。

이것은 기사의 핵심입니다. 다음, 나는 기본 능력이 당신의 관심과 방출이 직접 통과 할 수있는 배심의 방법을 제공 할 것입니다. 당신을 위해 무엇이든, 그것을 아래로 두십시오。

정말 효과적인 필터

당신은 새로운 주간 발표를 계속할 수 없습니다, 그리고 당신은 그렇게해야. 필요한 것은 정보의 흐름이 아니라 필터입니다。

지난 18개월 동안 5개의 시험이 유효합니다. 기술로 새로운 것을 얻기 전에이 다섯 가지 질문을 통해 가자。

그것은 2 년에서 중요합니까
쉘, CLI 매개 변수, 또는 앞선 모델 이외의 Devin의 일부 버전 인 경우, 답변은 거의 항상 없습니다. 프로토콜과 같은 기본 언어 인 경우 메모리 패턴, sandbox 방법, 대답은 더 가능성이 있습니다. 포탄 제품의 반감기는 짧습니다, 기초 언어의 반감기는 연례 기초에 산출될 수 있습니다。

진정한 제품을 바탕으로 만든 사람이 있고 정직한 경험을 쌓았습니까
마케팅 기사는 수 없습니다. "우리는 생산 환경에서 X를 시도하고, 여기에 문제가 있었다"는 10 발표보다 더 가치가있다. 이 지역의 진정한 유용한 신호는 항상 그 끝에 주말을 잃는 사람들로부터 온다。

기존의 tracing, retesting, configuration, certification을 잃게 될 것입니까
그렇게하면 플랫폼 자체를 만들기위한 프레임 워크입니다. 플랫폼 프레임 워크가 되려면 사망률은 약 90 %입니다. 현재 시스템에 내장되어 있어야하는 좋은 기본 언어입니다。

6 개월 동안 그것을 건너면 가격은 무엇입니까
대부분의 출판물의 경우, 대답은 아무것도 없다. 당신은 6 개월에서 더 알고있을 것입니다, 그리고 승리 버전은 더 명확하게 될 것입니다. 이 테스트는 불안없이 릴리스의 90 %를 건너 뛸 수 있습니다. 그러나 그것은 당신이 뒤에있는 것처럼 당신이 느끼는 무언가를 건너기 때문에 가장 많은 사람들이 사용을 거부합니다. 정말。

당신은 정말 당신의 angent를 더 잘 만들었는지 판단할 수 있습니까
그렇지 않은 경우, 당신은 그냥 추측. eval 없이, 팀은 감각에 의해 실행, 결국 다시 온라인. eval 팀과 함께, 당신은 자신을 말할 수 있습니다: 이 특정 부하에 이번 주, GPT-5.5 더 나은 또는 Opus 4.7 더 나은。

이 문서에서 하나의 습관 만하면 새로운 것을 출판 할 때마다 6 개월 만에 볼 필요가있는 것을 작성하고 실제로 중요합니다. 그런 다음 6 개월 후에 체크인하십시오. 대부분의 시간, 질문 자체는 대답을 주었다, 당신의 관심은 정말 성장에 대 한 구성 될 것입니다。

이 테스트 뒤에 실제 기능은 그들 중 어느 것 보다는 더 어렵습니다. 그것은 "간단한"일 수있는 능력입니다. 해커 뉴스 화재의 프레임 워크에서 이번 주, 그들은 14 일에서 치어리더가있을 것입니다, 그들은 모두 똑똑한 소리. 6 개월 후, 그러나, 그 프레임 워크의 절반은 더 이상 유지되지 않았고 납땜은 이미 다음 핫스팟으로 이동했다. 참여하지 않은 사람들, 관심을 저장하고 열이 통과 한 후 "silentness"테스트를 살아남은 사람들에게 맡겨. 그것은이 분야에서 실제 전문 기술이다, 보고 말, "나는 6 개월의 시간에 알 것이다." 모든 사람이 읽을 수 있지만 거의 아무도 그들에 반응하지 않는 것이 좋습니다。

학습 방법

개념, 패턴, 것들의 모양. 그것은 정말 돈을 지불하는 이러한 것들입니다. 그들은 모형, 기구 및 paradigm 교대를 교차할 수 있습니다. 그들을 잘 알고, 당신은 하나의 주말에 새로운 도구를 얻을 수 있습니다. 당신은 그들을 건너 뛸 경우, 당신은 항상 표면 메커니즘에 대해 학습 할 것이다。

Context 엔지니어링

지난 2 년 동안 가장 중요한 이름 변경은 "Context Engineering"에 "Prompt Engineering"이었습니다. 이 변화는 진짜, 새로운 것 아닙니다。

모델은 더 이상 더 이상 스마트 명령을 쓰지 않습니다. 그것은 당신이 일하는 방법의 각 단계를 조립해야 무언가로 전환합니다. 이 컨텍스트는 시스템 명령, 도구, 스키마, 검색된 문서, 이전 도구 출력, 스크래치패드 상태 및 압축 역사적 기록이 포함되어 있습니다. Agent의 행동은 context 창에 넣어 모든 요소의 결과입니다。

당신은 이것을 내부화해야합니다 : 컨텍스트는 상태입니다. 모든 관련 토큰은 이유의 질을 소모합니다. context rots, 실제 생산 실패. 10 단계 임무의 8 단계의 시간에 의해, 처음 표적은 산출의 수단에 의해 매장될지도 모릅니다. 신뢰할 수 있는 에이전트를 전달하는 팀은 요약, 압축 및 맞춤 설정에 대한 이니셔티브를 취할 것입니다. 그들은 도구 설명을 실행할 것입니다, 그들은 정적 부분을 느리고 그들은 캐시의 변경 부분을 거부 할 것입니다. context windows를 보면 경험있는 엔지니어가 메모리를 찾고 있습니다。

감정의 한 가지 특정 방법은 어떤 생산 환경에서 존재하고 전체 트랙 로그를 엽니 다. 첫 번째 단계의 컨텍스트를 살펴보고 일곱 단계의 컨텍스트를 살펴보십시오. 많은 토큰이 여전히 작동하는 방법을 계산합니다. 당신은 아마 첫 번째 시간을 할 때 embarrassed. 그리고 당신은 그것을 고치기 위하여 가고, 동일한 대리인은 명백하게 신속한 변화 없이 모형을 바꾸기 없이 믿을 수 없을 것입니다。

당신은 그것에 대해 하나의 기사만 읽을 경우, 당신은 "AI Agencies에 대한 효과적인 접촉 공학"을 읽으십시오. 그리고 그들은 다중 연구 시스템에 자신의 레퍼토리를 읽었고, 기사는 시스템 확장으로 컨텍스트를 분리하는 방법에 대해 중요한 방법에 대한 그림을 제공합니다。

공구 디자인

이 도구는 당신의 사업이 접촉에 온다는 것을 의도합니다. 이 모델은 도구의 이름과 설명에 따라 도구를 선택하고 잘못된 정보에 따라 다시 시도하는 방법을 결정합니다. 악기의 계약은 LLM의 표현 방식과 일관되고 모델이 성공하거나 실패 여부를 결정합니다。

5 ~ 10 개의 유명 도구, 20 개 이상의 일반 도구. 도구 이름은 자연 영어에서 동사처럼해야합니다. 설명은 사용되어야 할 때 밖으로 spell해야하며 그렇지 않으면. 잘못된 메시지는 모델이 행동 할 수있는 피드백이어야한다. 500 개 이상의 토큰 천장, 시도하기 전에 요약하십시오. 개방 연구의 팀 중 하나는 단순히 잘못된 정보를 다시 작성하여 40 %의 재 테스트 사이클을 감소했다고보고했습니다。

Anthropic 'Writing things for goal'은 좋은 출발점입니다. 읽기 후, 자신의 도구와 관찰을 추가하여 실제 통화 모드를 볼 수 있습니다. 에이전트의 가장 신뢰할 수있는, 거의 항상 도구의 측면에. 많은 사람들이 프롬프트를 이동, 실제 레버리지가 어디인지。

Orchestra-Subagent 모드

2024년과 2025년은 현재 모든 것이 채택되고 있는 통합 프로그램에서 계산된 다중 시약을 통해 결정합니다. nut-too-intent system, i.e. 병렬에서 공유된 상태에 쓰는 여러 에이전트는 항상 화합물이기 때문에 촉매가 실패합니다. 단 하나 anent 주기가 확장될 수 있는 범위는 당신이 생각 보다는 더 자주 더입니다. 생산 환경에서 실제로 작동 할 수있는 다중 에이전트의 한 유형이 있습니다. 관현관은 좁은, 읽기 전용 작업을 격리 된 시약에 할당하고 결과를 종합합니다。

Anthropic 연구 시스템은 다음과 같습니다. Claude Code의 시약은 다음과 같습니다. 봄 AI와 대부분의 생산 기구는 지금 이 모형을 표준화하고 있습니다. Subagent는 작고 집중된 컨텍스트를 가지고 공유 상태를 수정할 수 없습니다. 글쓰기는 관현악의 책임입니다。

"Don't Build Multi-Agents" by Cognition and "우리의 멀티 시약 연구 시스템을 구축하는 방법"Anthropic은 반대가 될 것 같지만 다른 관점에서 같은 것입니다. 둘 다 독서의 가치입니다。

단 하나 anent를 사용하는 과태. 단일 에이전트가 실제 경계를 명중하면 관현관-subagent에 고려됩니다. 예를 들어, 컨텍스트 창 압력, 시퀀스 도구 통화로 인한 지연, 또는 임무 이진성은 초점 상황에 혜택을 제공합니다. 통증을 느끼게 할 때까지 필요한 것들의 세트입니다。

Evals 및 골드 데이터 세트

믿을 수 있는 angent를 전달하는 각 팀에는 eval가 있습니다. eval의 팀이 없는, 보통 믿을 수 있는 납품이 없습니다. 그것은 필드에 가장 레버리지 된 습관이며, 내가 모든 회사에서 본 적이 가장 낮은 것。

효과적인 방법은 생산 환경 추적을 수집하고 실패의 경우를 표시하고 회귀로 치료하는 것입니다. 모든 시간은 새로운 실패가 온라인으로 간다, 그것을 추가합니다. 제목의 부분은 LLM-as-judge를 사용하며 다른 부품은 정확한 일치 또는 절차 검사를 사용합니다. 어떤 신속한, 모델 또는 도구 변경 전에 테스트 패키지를 실행하십시오. Spotify Engineering 블로깅은 판단 층이 출력되기 전에 약 25 %의 에이전트 출력을 중지한다고보고합니다. 그것 없이, 각 4개의 나쁜 결과는 사용자에 도달합니다。

실제로 뿌리를 가지고있는 정신 모델은 eval은 다른 모든 변화가 발생할 때 angent가 자신의 의무에서 탈선하지 않다는 것을 확인하는 단위 테스트입니다. 모델은 새로운 버전을 생산할 것입니다, 프레임 워크는 파괴적인 변화를 게시하고 공급 업체는 endpoint를 discard합니다. 당신의 eval은 angent가 여전히 작동인지 말해 줄 수있는 유일한 일입니다. eval 없이, 당신은 움직이는 표적의 goodwill에 달려있는 체계를 쓰고 있습니다。

Braintrust, Langfuse evals, LangSmith와 같은 타원형 기구는 좋습니다. 그러나 그들은 목이 아닙니다. 실제 Bottleneck은 먼저 표시된 데이터 세트가 있다는 것입니다. 첫날은 시작해야 합니다. 본래 50 표본은 수동으로 1개의 오후에서 표시될 수 있습니다. 변명 없음。

국가로 파일 시스템을 치료하고 Think-Act-Observe Cycle

진짜 다단계 기초에 작동하는 어떤 사람을 위해, 튼튼한 구조는: 반사, 활동, 관측, 반복. 문서 시스템 또는 구조 저장은 실제로 소스입니다. 모든 움직임은 기록되고 재생 가능합니다. Claude Code, Cursor, Devin, Aider, OpenHands, 이 모든 집광。

모델 자체는 비 상태입니다. 실행 프레임은 상태에 있어야합니다. 파일 시스템은 모든 개발자가 이해하는 국가 기반 기본 언어입니다. 이 프레임 워크가 허용되면 전체 분야는 자연스럽게 펼쳐질 것입니다 : 체크 포인트, 복구, 하위 시약 유효성, sandbox 실행。

그리고 더 깊은 부분은 여기에서 계산서를 지불하는 가치가 있는 어떤 생산에서, 모형 보다는 더 많은 일을 합니다. 모델은 다음 이동을 선택, 검사, 샌드 박스에서 실행, 출력을 캡처, 중지 할 때 결정, 중지 할 때 결정, 시약을 생성 할 때 결정, 체크 포인트를 결정. 동일한 질의 다른 모형에 엇바꾸기 모형, 좋은 마구는 아직도 제품을 배달합니다. 그리고 세계 최고의 모델은 그가 임의로 행해지는 것을 잊지 못할 존재를 일으킬 것입니다。

한 번의 도구보다 더 복잡하게 만드는 경우, 당신이 정말로 시간을 보내는 장소가 마구입니다. 모형은 다만 1개의 성분입니다。

MCP 개념적으로 이해

MCP 서버를 호출하는 방법을 배우지 마십시오. 모델 학습 그것은 angent의 수용량, 공구 및 자원 사이 명확한 별거를 창조하고 밑바닥에 확장 가능한 입증과 전송 프로그램을 제공합니다. 당신이 이것을 이해하면, 다른 "시약 통합 프레임 워크" 당신은 MCP의 낮은 형식 버전과 같습니다, 당신은 그들을 하나씩 평가하는 시간을 절약。

Linux Foundation은 이제 MCP 호스팅입니다. 모든 주요 모델 공급자는 그것을 지원합니다. 지금 sarcasm보다 진실에 가까이 있습니다。

Sandboxing은 기본 말하기입니다

모든 생산 등급은 sandbox에서 실행됩니다. 모든 브라우저 anent는 간접적인 문제 주입을 경험했습니다. 모든 멀티텐트는 일부 단계에서 관할권을 가지고 있습니다. 인프라의 원래 언어로 sandboxing을 사용해야합니다, 오히려 클라이언트의 요청에 추가 기능보다。

기본 지식은 배운해야 합니다: 공정 분리, 네트워크 수출 통제, 주요 범위 관리 및 angent와 공구 사이 인증 경계. 고객 보안을 기다리는 팀은 광고 hoc 기반을 대체하기 위해 종종 거래를 잃습니다. 첫 주부터 일하고 있는 팀은 기업 조달 과정에 쉽게 통과할 것입니다。

무엇을 짓는가

다음은 4 월 2026의 특정 옵션입니다. 이 선택은 변경하지만 너무 빠릅니다. 이 층에는 지루하지만 꾸준한 무언가를 선택하려고합니다。

제품정보

LangGraph는 생산 환경에서 기본 옵션입니다. angent를 실행하는 대형 기업의 세 번째에 대해 그것을 사용합니다. 초록 접근법은 angent 체계의 진실한 모양에 대응합니다: 유형의 상태, 상태 측, 마지막 작업 흐름 및 인간에서 반복 체크 포인트. 단점은 그것을 작성하는 것입니다; 이점은 개인이 실제로 생산 환경을 입력 할 때, 당신은 정말 이러한 일을 제어 할 필요가있다, 그리고 그 채터는 이러한 통제에 해당합니다。

TypeScript를 사용하는 경우 Mastra는 실제 선택입니다. 이 생태 정신 모델에 가장 명확한 시나리오입니다。

팀이 Pydantic을 좋아하고 첫 번째 클래스 시민으로 보안을 원하면 Pydantic AI는 합리적인 그린 필드 옵션입니다. 2025 v1.0의 끝에 출시되었으며, 모멘텀은 존재합니다。

제공 업체-native, e.g. 컴퓨터 사용, 음성, 실시간 상호 작용, Claude Agent SDK 또는 OpenAgents SDK는 LangGraph 노드에서 사용할 수 있습니다. 이노머 시스템의 상단 레이어를 만들려고하지 마십시오. 그들은 그들이 무엇을 위해 완벽합니다。

의정서 층

MCP, 아무것도 다른。

MCP 서버에 도구를 넣어. 외부 통합은 동일한 방식으로 소모됩니다. 이제 MCP는 임계값을 횡단했습니다. 대부분의 경우 직접 구축해야하기 전에 준비된 서버를 찾을 수 있습니다. 2026년에, 손으로 쓴 자체 정의 도구가 추가되었습니다。

기억 층

메모리 시스템을 선택하면 열에 의해 선택하지 않고 개인의 자율성에 의해 선택합니다。

Mem0는 채팅 개인화에 적합합니다 : 사용자 선호도, 가벼운 역사. Zep은 생산 수준의 대화 시스템에 적합합니다. 특히 국가가 진화하고 물리적 추적이 필요합니다. Letta는 몇 일 또는 작업주기의 주 동안 일관성을 필요로하는 사람들을 적합합니다. 대부분의 팀은 이것을 필요로하지 않습니다; 그러나 실제로 그것을 필요로 하는 것, 그들은 그것을 필요로 합니다。

일반적인 오류는 메모리 문제가 없지만 메모리 프레임 워크가 먼저 있습니다. 컨텍스트 윈도우가 수용할 수 있는 것을 시작, 벡터 데이터베이스. 당신은 당신이 명확하게 실패의 본을 해결하려는 경우에 메모리 시스템에 메모리를 추가 할 수 있습니다。

관찰 및 evals

Langfuse는 오픈 소스 기본 선택입니다. 그것은 MIT 라이온스를 사용하여 자체를 호스팅 할 수 있으며 추적, 신속한 버전 관리 및 기본 LLM-as-judge evals를 커버 할 수 있습니다. 이미 LangChain 사용자 인 경우 LangSmith 통합이 더 낫습니다. Braintrust는 엄격한 비교를 요구하는 연구 유형 eval 워크플로우에 적합하다. OpenLMetry / Traceloop는 공급업체 중립 OpenTelemetry 통합을 필요로 하는 다국어 저장소에 적합합니다。

당신은 tracing과 evals 둘 다가야 합니다. 대답, "어떤 angent는?" Evals는 말했다, "당신은 어제 또는 악화보다 더 나은?" 아니요, 온라인으로 갈 수 없습니다. 첫날, 이 항목은 장님을 실행 한 후 수리보다 훨씬 낮은 비용으로 고정됩니다。

런타임과 샌드박스

일반적인 sandbox 코드 실행에 적합 E2B. 브라우저 자동화에 적합한 Stagehand와 Brownserbase. Anthropic 회사 실제 운영 체제 수준의 데스크탑 컨트롤을 필요로하는 시나리오를 사용하십시오. Modal은 단기적인 서지 할당에 적합합니다。

sandboxing없이 코드를 실행하지 마십시오. 신속한 주입에 의해 부서지는 anent, 그리고 그것이 생산 환경에서 직접 실행하는 경우에, 폭발 반경은 당신이 말하고 싶지 않는 이야기가 됩니다。

주요 특징

벤치 마크의 추적은 매우 도움이되지 않는 시간의 배기 및 대부분입니다. 4 월 2026 일부터 실제로 :

클로드 Opus 4.7 및 Sonnet 4.6 , 다단계 견실함 및 우아한 실패 회복을 위한 적당한 공구. 대부분의 작업 부하. 대부분의 직업을 위해, Sonnet는 비용과 성과 사이 단 반점입니다。

GPT-5.4 및 GPT-5.5는 가장 강력한 CLI/terminal reasoning 기능에 대한 필요성 또는 OpenAI 인프라에 거주하는 사실에 적합합니다。

Gemini 2.5 및 3은 컨텍스트 인텐시브 또는 다중 모드 인텐시브 작업에 적합합니다。

비용이 최고 수준의 성능보다 더 중요 할 때 특히 명확하고 좁은 정의 작업을 처리 할 때 DeepSeek-V3.2 또는 Qwen 3.6은 고려 될 수 있습니다。

모형은 보충 성분으로 간주됩니다. 당신의 대리인이 모형에 단지 일할 수 있는 경우에, 그것은 moat 아닙니다, 나쁜 냄새입니다. evals를 사용하여 모델을 배포합니다. 매주 분기별 재평가。

어떻게 건너뛰나요

당신은 지속적으로 공부하고이 일을 사용합니다. 정말. 그들을 건너 뛰는 비용은 낮고 많은 시간을 절약합니다。

AutoGen 및 AG2, 생산하지。
Microsoft의 프레임 워크는 지역 사회 유지 보수로 이동하여 배포의 stagnant 속도와 생산 팀이 정말로 필요로하는 양식에 대응하지 않는 추상적인 접근 방식. 학술 연구는 수행 할 수 있지만 그것에 없습니다。

CrewAI는, 새로운 생산 건축을 위해 아닙니다。
그것은 어디에나, 데모를 위해 완벽하기 때문에. 실제로 생산 시스템을 구축 한 엔지니어는 그것에서 움직이고 있습니다. 프로토타입을 만들고 싶으신가요。

Microsoft Semantic Kernel은 Microsoft Enterprise Technology에서 깊고 잠겨있지 않고 구매자가 관리합니다。
생태계의 방향이 두는 것은 아닙니다。

DSPy, 당신은 신속한 프로그램의 대규모 최적화를 전문화하지 않는。
그것은 철학적 가치를 가지고 있지만 관객은 매우 좁습니다. 일반적인 프레임이 아니라 일반 프레임이 아닙니다。

구조 선택으로 독립적 인 코드를 사용하여。
Code-as-action는 흥미로운 연구 방향이지만 생산 환경에서 기본 모델이 아닙니다. 당신은 당신의 경쟁자가 전혀 취급하지 않을 수 있다는 많은 도구와 보안 문제가 있습니다。

"Autonomous delegate"는。
AutoGPT와 BabyAGI는 이미 그 제품 패턴에 죽었다. 결국, 업계는 "시약 참여"의 정직을 허용 : 감독, 국경, 평가. 2026 년, 여전히 배포 후 자치적인 의도를 판매 한 사람들 2023。

에이전트 앱 스토어 및 marktplace。
2023년부터, 사람들은 이것에 전념했습니다, 그러나 진짜로 사업 거래를 얻지 못했습니다. 기업은 일반적인 prefabricated anent를 살지 않을 것입니다. 그들은 특정한 결과에 수직 부착을 사고, 또는 그들을 스스로 구축. 앱 스토리 꿈의 주위에 당신의 사업을 디자인하지 마십시오。

클라이언트로서, 수평 "모든 anent"사업 플랫폼의주의 선택。
예를 들어, Google Agespace, AWS Bedrock 아르헨티나, Microsoft Copilot Studio. 그들은 미래에 유용 할 수있다, 그러나 그들은 여전히 disarray와 느린 배포에서, 그리고 사방의 책은 일반적으로 좁은 의도를 구축하거나 수직 하나를 구입하는 경향이있다. 예외는 Salesforce Agentforce 및 Servicenow Now Assist이며 이미 사용중인 워크스트림 시스템에서 승리하기 때문입니다。

SWE-bench 및 OSWorld 순위를 따르지 마십시오。
Berkeley 연구원은 거의 모든 개방 벤치 마크가 바닥 작업을 해결하지 않고 순위가 될 수 있다고 2025에 기록했습니다. 이제 팀은 Terminal-Bench 2.0 및 자체 내부 evals를 더 실제 신호로 사용합니다. 벤치 마크의 단일 숫자의 의심의 여지없이 유지하려면 기본。

낭만적 인 배수 구조。
공유 메모리에 대한 다섯 에이전트 채팅, 데모에서 그것은 꽤 좋은 보인다, 그리고 할 때, 그것은 휴식. 냅킨에 명확한 오케스트라-subagent 지도를 그리지 않고, 읽기 및 쓰기 경계를 표시하고 온라인으로 갈 수 없습니다。

새로운 에이전트 제품은 per-seat SaaS를 사용하여 가격이 책정되지 않습니다。
시장은 outcome 기반 및 사용 기반으로 전환했습니다. 좌석 요금은 당신에게 더 적은 돈을 만들뿐만 아니라 제품을 제공 할 것이라고 믿지 않은 구매자에게 신호를 보낼 것입니다。

다음 프레임 당신은 해커 뉴스에 볼 이번 주。
6개월 후 아직도 중요 한 경우, 당신은 알고. 중요하지 않은 경우, 당신은 하나의 이동을 저장합니다。

우리는 어떻게 앞으로 이동합니까

angent로 유지하려고하지 않는 경우, 정말 angent를 사용하려는 경우, 다음 주문은 유효합니다. 그것은 보이지만 유용하다。

첫째, 이미 중요 한 결과. 달 샷을 선택하지 마십시오, 일어나지 않고 수평 "시약 플랫폼"프로젝트를 수행하지 마십시오. 귀하의 비즈니스에 관심있는 무언가를 선택, 그리고 measurable: 승객 서비스 주문의 번호를 감소, 법적 검토의 첫 번째 버전을 생성, 필터링, 월별 보고서 생성. 대리인의 성공은 이 결과에 있는 개선에 달려 있습니다. 오늘부터 eval 대상입니다。

이 단계는 모든 후속 결정에 바인딩하기 때문에 다른 단계보다 더 중요합니다. 콘크리트 결과, 프레임 워크의 선택은 더 이상 철학적 문제이며, 가능한 한 빨리이 결과를 전달하는 프레임 워크를 선택할 수 있습니다. 모델의 선택은 더 이상 벤치 마크 인수가 아니지만,이 특정 직업에 대한 효과적인 모델을 입증하기 위해 evals의 선택. "우리는 메모리가 필요하지 않습니다, 시약, 사용자 정의 역사"는 더 이상 생각의 실험이 아니지만 특정 실패 패턴이 필요할 때만 추가됩니다。

이 단계를 건너 뛰는 팀은 종종 아무도 원하지 않는 수평 플랫폼을 만들기. 이 단계가 심각하게 걸리는 팀은 분기 내에 돌아갈 수있는 좁은 하나를 제공합니다. 그리고 이 진짜로 온라인 대리인은 그(것)들을 읽는 2 년 이상 가르칠 것입니다。

모든 것을 가진 선에 가기 전에, Tracing와 evals를 설치하십시오. Langfuse 또는 LangSmith를 선택하여 픽업하십시오. 필요한 경우 작은 금 dataset을 수동으로 만듭니다. 50개의 레테르를 붙이는 표본은 시작하게 충분합니다. 측정할 수 없는 것을 수정할 수 없습니다. 그것은 시스템의 비용 대략 10배 일 것입니다。

단일 anent 루프로 시작합니다. LangGraph 또는 Pydantic AI를 선택하십시오. 모형 선택 클로드 Sonet 4.6 또는 GPT-5. angent 3 ~ 7 개의 잘 설계 된 도구를 제공합니다. 파일 시스템 또는 데이터베이스를 state로 만듭니다. 사용자의 작은 범위에 먼저 전송, 트랙을 시청。

제품, 프로젝트가 아니라는 것을 고려하십시오. 예상하지 못한 길에서 실패하고 그 실패는 도로지도입니다. 실제 생산으로 반환 설정 구축. 모든 신속한 변경, 모델 교체, 도구 수정은 배포 이전에 전달됩니다. 대부분의 팀은 여기에서 입력하고, 대부분의 신뢰성은 여기에서 옵니다。

범위를 확장 할 권리가있을 때만 복잡성을 추가합니다. 컨텍스트가 병목이되면, 시약이 도입됩니다. 단일 창의 컨텍스트가 필요한 콘텐츠를 수행 할 수 없을 때 메모리 프레임을 삽입합니다. 아래 API가 실제로 존재하지 않는 경우, 명령 사용 또는 Browner 사용을 소개합니다. 이 일을 미리 디자인하지 마십시오. 실패 모드를 잡아라。

Liberty 인프라를 선택하십시오. 도구 사용 MCP. Sandboxes 사용 E2B 또는 Brownserbase. Postgres와 상태, 또는 당신은 이미 데이터 저장을 실행. 인증 및 관측도 가능한 범위에 기존 시스템을 따르십시오. 낯선 인프라는 거의 진정한 수상자이며, 진정한 수상자는 분야입니다。

첫날부터, 우리는 단위 경제 모형을 보았습니다. 각 활동 비용, 시렁 비율, 재시험 주기 비용, 모형 외침 배급. 에이전트는 PoC 단계에서 저렴하지만, 당신이 outcome 비용을 모니터링하지 않는 경우, 그것은 100 배 더 큰 때 폭발. PoC의 실행 당 US $ 0.50는 중간 규모에서 매월 50,000 달러가 될 수 있습니다. 그들이 좋아하지 않는 CFO 회의를 미리 볼 수없는 팀。

모델은 주간보다 분기별로 재조합됩니다. 분기를 잠그십시오. 분기 말에, 당신의 타원형 한 벌을 가진 현재 정면 모형을 달립니다. 데이터가 변경을 나타내면 변경이 이루어집니다. 그래서 당신은 모델 발전의 이점을 얻을, 각 릴리스의 혼란을 피하면서。

어떻게 tide 판단

다음은 사실이 될 수있는 특정 신호입니다. 존경받는 엔지니어링 팀은 디지털 포스트 모뎀을 작성했으며, 많은 사람들이 그것을 사용하는 방법을 주장하지 않습니다. 그것은 프로토콜, 모델, 또는 인프라, 쉘 또는 팩과 같은 기본 언어입니다. 이미 실행중인 시스템과 상호 작용합니다. 그 피치는 그것이 무엇을 해결하는지에 대해 이야기합니다. 그것은 "무엇이 작동하지 않는 블로그를 작성하는 것이 좋습니다."。

다음은 무언가가 단지 잡음이 될 수 있음을 나타내는 특정 신호입니다 : 30 일 후, 여전히 데모 비디오와 생산 사례가 없습니다. 벤치 마크 점프는 사실처럼 깨끗하지 않습니다. 피치는 "자력" "appent OS"또는 "모든 경우를 구축하십시오. 프레임 워크 문서는 기존의 추적, 오 및 구성을 던질 것이라고 약속합니다. 스타 번호는 빠르게 성장하지만 숫자는 동시에 증가하지 않습니다. Twitter는 빠르지만 GitHub는 계속할 수 없습니다。

매주 유용한 습관은 금요일에 30 분이이 필드를 볼 수 있습니다. 세 가지 읽기 : Anthropic Engineering Blog, Simon Willison의 노트, Latent Space. 이번 주에 postmorem이 있다면, 1 개 또는 2 개를 청소하십시오. 자주 묻는 질문 정말 중요한 것은 놓치지 않습니다。

다음은 무엇입니까

다음 두 분기는 지적 가치가있다, 그들은 승리하기 때문에, 그러나이 신호인지 여부의 문제 또는 완전히 해결되지 않았다。

Reflit 대리인을 위한 평행한 forking 모형 4。
이것은 실제로 공유 상태에 의해 여행하지 않고 "다시 병렬 작업"을 시도하는 첫 번째 옵션 중 하나입니다. 크기 이후에 다시 열 수 있다면, 이 기본 패턴이 변경 될 수 있습니다。

Outcome 기반 성숙。
Sierra와 Harvey의 수입 trajectory는 좁은 수직 지역에 유효합니다. 질문은 다른 영역 또는 수직 시나리오에만 확장 될 수 있는지 여부。

능력의 결합 층。
GitHub의 AGENTS.md 및 기술 이사의 성장은 개인의 능력을 수집하는 새로운 방법을 나타냅니다. MCP 표준화 도구와 같은 기능 수준에서 표준화 될 수있는 개방적인 질문입니다。

클로드 코드, 4 월 2026, 대량 레트 및 리셋。
1개의 기업 주요한 대리인은 recede에 성과의 47%를 일으키는 버전을 풀어 놓고, 내부 감시 후에 사용자에 의해 첫번째 발견되었습니다. 이것은 지도에서 조차, 생산 수준 연습 아직도 아주 immature 건의합니다. 이 일이 전체 산업을 구동 하는 경우 더 나은 온라인 evals를 투자, 다음이 건강。

Voice는 기본 클라이언트 인터페이스가 됩니다。
Sierra의 음성 채널은 2025년까지 텍스트 채널을 초과했습니다. 모델이 다른 수직 영역에서 계속되는 경우, 지연, 중단 및 실시간 도구 호출과 같은 디자인 제약은 일류 문제가되고, 많은 기존 구조는 재작업해야합니다。

오픈 소스 모델 angent 기능은 갭을 줄이기 위해 계속。
딥스카이-V3.2 Native Support Think-into-tool-use, Qwen 3.6 및 Wider 오픈 소스 모델 생태는 관심입니다. 좁은 angent 임무의 비용 성과는 변화합니다. 닫히는 자원 모형의 기본 이점은 영원하지 않을 것입니다。

이러한 것들의 각각은 분명한 질문에 대답 할 수 있습니다. "내가 정말 중요한 것을 믿는 6 개월에서 볼 필요가 있습니까?" 이것은 시험입니다. 답변을 추적, 게시판이 아닙니다。

특별한 베팅입니다

당신이 사용하지 않는 모든 프레임은 당신이 미래에 오지 않는 마이그레이션입니다. 모든 벤치 마크가없는 것은 분기점입니다. 이 사이클 우승 기업 - Sierra, Harvey, Cursor, 자체 분야에서 각각 - 좁고 대상을 선택, 지루한 분야를 설립하고이 지역에 소음을 통과 할 수 있습니다。

전통적인 경로는 기술 창고를 선택하는 것입니다, 그것을 마스터하기 위하여 년을 가지고 가고 그 후에 사다리를 올라갑니다. 이 기술은 수십 년 동안 안정적으로 안정화 할 수 있습니다. 그러나 이제 기술 결함은 각 분기마다 변화합니다. 실제 우승자는 더 이상 기술 창고의 "테이크 컨트롤"을 최적화하지만, 오히려 맛, 기본 언어 및 배달 속도 최적화. 그들은 작은 일을 열고 제공함으로써 학습합니다. 다른 사람들은 무언가를 만들었다 때문에 방에 걸렸다. 업무 자체는 자격입니다。

그것에 대해 생각, 이 전체 기사 정말 말을하고 있기 때문에. 우리 중 대부분은 우리가 받아들이는 일 모델은 세계가 다시 성장하기 위해 고위성을 허용하기 위해 충분히 안정 될 것이라고 가정합니다. 당신은 학교에 갈, 정도를 얻을, 사다리 상승. 여기에서 2 년, 3 년, 그리고 천천히 문을 열 무언가가된다. 전체적인 기계의 전제는 그것의 측에 기업을 위해 충분히 안정되어 있다는 것입니다。

그러나 필드에 안정적인 "opposite"가 없습니다. 가입하려는 회사는 6 개월이 될 수 있습니다. 그들은 단지 18 개월 된 프레임 워크를 구축 할 수 있습니다. 계약에 따라 2 년이 될 수 있습니다. 이 지역에서 가장 자주 인용 한 기사의 절반은 3 년 전이 지역에서도 없었습니다. 건물이 변형 된 것과 같이 상승 할 사다리가 없습니다. ladders가 실패할 때, 나머지는 무언가를 만드는 오래된 방법, 인터넷에 넣어, 그래서 당신은 자신을 소개할 수 있습니다. 이것은 자격 시스템을 우회하여 특별한 경로입니다. 그러나 이동 영역에서, 그것은 또한 진정으로 탄력적인 성장에 유일한 경로입니다。

그것은 우리가 내부에서 볼 것 이다. 심지어 거인은 열려, 출판은 문제, flashbacks 및 온라인 패치를 작성합니다. 올해 가장 흥미로운 팀 중 일부는이 지역에 없었다 18 개월 전. 코드를 작성하지 않은 사람은 angent, 실제 소프트웨어를 제공. 의사는 기본 언어를 선택하여 빠르게 이동하기 시작합니다. 문을 열었습니다. 대부분은 여전히 응용 프로그램을 찾고 있습니다。

당신은 정말로 "시약"이 아닌 기술을 개발해야합니다. Rather, 그것은 작업이 표면의 변화 분야에서 성장에서 혜택을 판단하는 분야입니다. Context 증가는 증가할 것입니다. 공구 디자인은 가치에서 증가할 것입니다. Orchestra-subagent 모델은 증가할 것으로 예상됩니다. Eval Disciplinary는 값을 추가합니다. 하네스의 생각은 성장을 높일 것입니다. 화요일 방금 프레임 워크 API를 출시했습니다. 당신이 그들을 구별 할 수되면, 새로운 릴리스의 파도 매주 스트레스처럼 보이지 않고 무시 할 수있는 소음이됩니다。

모든 것을 배울 필요가 없습니다. 성장하고 성장하지 않는 것을 건너뛰는 것을 배울 필요가 있습니다. 1개의 outcome를 선택하십시오. 온라인으로 이동하기 전에 Catching 및 evals. LangGraph를 사용하거나 팀의 동등물. MCP를 사용하십시오. sandbox에서 실행 시간을 넣어. 기본값은 단일 anent로 시작합니다. 이 범위는 복잡성에서 실패 패턴 풀 때만 확장됩니다. 모델은 분기별로 재조합됩니다. 금요일 세 가지를 읽으십시오。

그것은 playbook입니다. 남아있는 것은 맛, 배달의 속도와 불쾌한 것을 추구하지 않는 인내。

뭔가를 짓다. 인터넷에 넣어. 이 시대는 물건을 만드는 사람들을 보상합니다. 이제 "real maker"의 최고의 창입니다。

[ 척 ]원본 링크]

2026 AI LEARNING MANUAL: 학습, 사용, 터치