元のタイトル:AIの代理店で学ぶこと、造り、そしてスキップすること(2026)
この投稿は、私たちの特別なカバレッジシリアプロテス2011の一部です
ペギーブロックビートによる写真

エディタプレス:AIエージェントフィールドは、ツールの爆発とコンセンサスの欠如の期間に入っています。

毎週、新しい枠組み、新しいモデル、新しいベンチマーク、そして新しい「10倍の効率性」製品が登場しますが、本当に重要な質問は「すべての変化に追いつく方法」ではなく、「投資する価値があるもの」ではありません。

著者の ' s ビューでは、最新のフレームワークではなく、低容量ではなく、つまり、技術倉庫が書き換えられているとき、現時点でのリアルタイムで真の長期レジリエンスです。「コンテクストエンジニアリング」と呼ばれるツール設計、楕円形システム、オーケストラ・サブゼントモード、サンドボックス、自然思考。これらの機能はモデルにすぐに失敗しませんが、信頼できる AIAgent を構築するための基礎を形成します。

この記事では、AIエージェントが「資格」の意味も変化していると述べています。過去には、学歴、学年、学年が経過しました。しかし、巨人が未然に誤認した地域では、CVはもはや唯一の文書ではありませんでした。あなたが何をしたのか、あなたがお届けしたのは、より重要になります。

そのため、この論文は、2026年に学んだAIエージェントの議論だけでなく、彼が何を使っていたのか、彼は飛び越えたものではなく、ノイズを増加させる時に、最も希少な能力は、学習価値のあるものを判断し、継続的に何かを本当に有用なものにすることです。

以下は元のテキストです

毎日、新しい枠組み、新しいベンチマーク、新しい「10倍の効率性」製品が登場します。質問はもはや「どのようにして立ち上がるのか」ではありませんが、そこには実際の信号と、緊急感のノイズは何なのか。

各道路マップは、出版物の1ヶ月後に、廃止される可能性があります。最後の四分の一を手に入れたフレームは今昔です。最適化するために使用したベンチマークはすぐに塗り替えられました。過去には、テーマと層のクラスターに対応する技術倉庫、一連の作業経験、対応年とタイトル、およびスローステップアップに対応する伝統的なパスに従うように訓練されています。しかし、AIはこのキャンバスを書き換えました。ヒントが正確で審美的に認められている限り、人は2年の経験を持つエンジニアが行う必要がある仕事を届けることができます。

専門の容量は重要ままです。システムがダウンするのを見るのに代わるものはありません, メモリリークで午前中に2時位置, そして、あなたがパブリックから抜け出し、退屈ではなく、正しい解決策を選択することができたという事実の代替はありません, そして、それは正しい証明されています. そのような判断は値が増加します。しかし、過去のように追加されていないのは、今週のホットフレームAPI表面にあなたの精通です。 6ヶ月後、再び変更されることがあります。 2年後の実勝者は、耐久性の基礎を選ばれた者であり、他の騒音が通過することを可能にします。

昨年2年間、この分野に製品を建設し、年間2万5千万ドル以上の製品を製造してきました。そして今では、隠れた企業での技術を担当しています。誰が私に尋ねるなら、「今気にすべきこと」それは私が彼を送信するものです。

道路地図ではありません。エージェントフィールドは、まだ明確な目的地を与えていません。大規模な工場の研究室は、オープンで、数千万人のユーザー、書き換え、オンラインのパッチに直接リターンの問題を押します。クロードコードの背後にあるチームが、リトリートするパフォーマンスの47%を引き起こしたバージョンを公開することができ、ユーザーコミュニティが問題を発見するまでは、「以下に安定したマップが存在する」という考え方は、フィクションです。みんな探しています。巨人が答えを知らないので、スタートアップの機会は正確にです。コードを書くことができない人々は、M.D.が不可能だと思う何かを金曜日に提供する、エージェントと働いています。

この瞬間に関する最も興味深いことは、資格の理解を変えることです。伝統的な道は、学位、中位、シニアポジション、シニア投稿、そしてゆっくりと蓄積された投稿によって最適化されます。底部に根本的な変化がない場合に正当化されます。しかし、今は、足の足から同じペースで下がっていきます。 22歳からリリースされたエージェントのデモと35歳までのシニアエンジニアのギャップは、何十年にも及ぶスキル蓄積はありません。この22歳のシニアエンジニアが同じブランクのキャンバスに直面しています。それらにとって、成長の本当の回復は、持続可能な基礎に届ける意欲であり、その分数が四半期内に廃止されることはありません。

この記事のコアです。次に、基本的な機能があなたの注意に値する判断の方法を提供し、どのリリースも直接渡ることができます。あなたにぴったりのものを取り、それを置きます。

実質的に有効なフィルター

毎週の発表を続けてはいけません。必要なのは、情報の流れではなく、フィルタです。

過去18ヶ月間の5つのテストが有効になっています。これらの5つの質問を読んで、新しいものをあなたの技術に手に入れましょう。

2年で大切ですか
シェル、CLI パラメータ、またはフロントラインモデルの外側にある「Devin のいくつかのバージョン」だけの場合、その答えはほぼ常にありません。プロトコル、メモリパターン、サンドボックスメソッドなどの基本的な言語であれば、答えはそうである可能性が高い。シェル製品の半減期が短く、ベース言語の半減期は年単位で計算できます。

実際の製品を作り、正直に経験を書いている人はいますか
マーケティング記事はカウントしません。「生産環境でXを試してみましたが、ここで問題がありました」というブログは10以上の発表よりも価値があります。このエリアの真に便利な信号は、週末を失いた人からその端に来るでしょう。

つまり、既存のトレース、リテスティング、構成、認証を失うつもりですか
もしそうなら、プラットフォーム自体を作るためのフレームワークです。プラットフォームフレームワークであることを試してみると、死亡率は約90%です。現在のシステムに埋め込まれるべき良い基本的な言語で、移行を強制しない。

6か月間スキップすると、価格は何ですか
ほとんどの出版物については、答えは何もありません。 6ヶ月以上経過すると、勝ったバージョンがクリアになります。このテストでは、不安なくリリースの90%をスキップできます。しかし、それはあなたが後ろにいるような気分になる何かをスキップするので、ほとんどの人が使用を拒否するものです。お問い合わせ。

それは本当にあなたの洗剤を良くしたかどうかを判断できますか
そうでなければ、あなたはただ推測しています。 eval がなければ、チームは感情によって実行され、最終的にオンラインで戻ってきます。楕円形のチームでは、自分自身を教えることができます。今週のこの特定の負荷では、GPT-5.5 または Opus 4.7 より良いです。

あなたがこの記事から1つの習慣だけを取るならば、それはあなたが新しいものを出版するたびに、6ヶ月で見なければならないものを書いて、それは本当に重要です。その後、6ヶ月後に戻って確認します。ほとんどの場合、問題自体は答えを与えています、そしてあなたの注意は本当に成長のためにを構成するものに専念されます。

これらのテストの背後にある実際の機能は、それらのいずれかよりも名前を付けるのは困難です。「シンプル化」する機能です。今週はハッカーニュースの火の枠組みで、14日間はチアリーダーを持っていて、彼らはすべての音がスマートになります。 6ヶ月後、しかし、それらのフレームワークの半分は維持されず、チアリーダーはすでに次のホットスポットに移動しました。関与していない人、自分の注意を保存し、熱が経過した後に「沈黙」テストを生き残った人にそれを残す。「6ヶ月で知っておく」と、拘束力のあるこの分野では、本当にプロフェッショナルなスキルです。みんなが読んでいますが、ほとんど誰も彼らに反応しないのは良いことです。

学ぶこと

概念、パターン、物事の形状。それは本当に支払いますこれらの事です。モデル、フレームワーク、パラダイムシフトを横断できます。週末に新しいツールを入手できます。それらをスキップすると、常に表面メカニズムについて学習します。

コンテキストエンジニアリング

最後の2年間、最も重要な名前は「コンテクストエンジニアリング」に「プロンプトエンジニアリング」でした。この変更は、新しいものではなく、本物です。

このモデルは、スマートコマンドを記述するコマンドを記述するコマンドはもうありません。働く方法のあらゆるステップを組み立てる必要がある何かに変わります。このコンテキストには、システムコマンド、ツール、スキーマ、取得されたドキュメント、以前のツール出力、スクラッチパッドの状態、および圧縮された履歴レコードの両方が含まれています。エージェントの動作は、コンテキストウィンドウに置いたすべての要素の結果です。

コンテキストは状態です。すべての関連トークンは、推論の質を消費します。コンテキストのrots、実際の生産失敗。 10ステップのミッションの8ステップの時点で、初期目標は出力手段によって埋め込まれている可能性があります。信頼できるエージェントを配信するチームは、コンテキストを要約、圧縮、調整するための取り組みを行います。ツールの説明を実行し、静的な部分を遅くし、キャッシュの変更部分が拒否されます。コンテキストウィンドウを眺める方法は、記憶を見ている経験豊富なエンジニアのようなものです。

1つの特定の感情の方法は、任意の生産環境で、完全なトラックログを開くことです。最初のステップのコンテキストを見て、7番目のステップのコンテキストを見てみましょう。トークンがいくつも機能しているかをカウントします。初めてこれを行うと、おそらく恥ずかしいです。そして、あなたはそれを修正しようとしていると、同じエージェントは、プロンプトを変更することなく、モデルを変更することなく、明らかにより信頼性になります。

この記事を1つだけ読むと、「AIエージェントの効率的なコンタクトエンジニアリング」をお読みください。そして、彼らは複数の研究システムに自分のレパートリーを読んで、記事は、システムが拡張するにつれて、コンテキストを分離することがいかに重要であるかを把握します。

ツール設計

ツールは、あなたのビジネスが接触する意図です。モデルは、ツールの名前と説明に従ってツールを選択し、間違った情報に基づいて再び試す方法を決定します。機器の契約はLMMの表現方法と一致しており、モデルが成功するか失敗するかを決定します。

5〜10個のウェルネームツール、20以上のプレーンツール。ツール名は、自然な英語の動詞のようなものでなければなりません。説明は、それが使用すべきとき、そしてそれがすべきでないとき、スペルアウトする必要があります。間違ったメッセージは、モデルが実行できるフィードバックでなければなりません。 500以上のトークンの天井、試行の前に要約してください。開いた研究のチームは、誤った情報を書き換えるだけで、40パーセントごとに再テストサイクルを削減したと報告しました。

Anthropic '目標のために物事を記述する' 良い出発点です。読書の後、独自のツールと観察を追加して、実際の呼び出しモードを確認します。エージェントの最も信頼できる、ほとんど常にツールの側に。多くの人が、実際のレバレッジがどこにあるのかを無視して、プロンプトをシフトし続ける。

Orchestra-Subagentモード

2024年と2025年は、現在採用している統合プログラムで計算されたマルチエージェントに対する議論が始まります。ナットトオインテントシステム、すなわち、並行して共有状態に書き込む複数のエージェントは、エラーが常に混合されるため、触媒的に失敗します。単年連続のサイクルを延長できる範囲は、考えるよりもますますます。実際に生産環境で働くことができる複数のエージェントの1種類だけがあります。オーケストレータは、分離されたサブエージェントに狭くて読み取り専用のタスクを割り当て、結果を合成します。

人類学的研究システムは、このように働きます。 Claude Code のサブエージェントはこのようになります。春のAIとほとんどの生産フレームワークは、このモデルを標準化しています。サブエージェントは、小規模で集中的なコンテキストを持ち、共有状態を変更することはできません。ライティングはオーケストラの責任です。

Anthropicによるコグニションと「マルチエージェントの構築」による「マルチエージェントのビルド方法」は反対のビューに見えますが、異なる用語で同じことです。どちらも読む価値があります。

デフォルトでは、単一のアンエントを使用する。単一のエージェントが真の境界線に当たると、例えば、コンテキストウィンドウの圧力、シーケンスツールの呼び出しによる遅延、またはミッションのヘテロ遺伝子がフォーカスコンテキストから利益を得る場合にのみ考慮されます。痛みを感じるまで必要なくないもののセットです。

Evalsと金データセット

信頼できるエージェントを届けるチーム全員がイーバルを持っています。 evalのチームなしで、通常信頼できる配達がありません。フィールドに最も有利な習慣と、私が今まで見てきた最低限の過小評価の事です。

効果的なアプローチは、生産環境の痕跡を収集し、失敗のケースをマークし、それらを回帰として扱うことです。新しい失敗がオンラインになるたびに、追加します。主観的な部分はLM-as-judgeを使用し、他の部分は精密な一致かプロシージャル点検を使用します。プロンプト、モデル、またはツールの変更の前にテストパッケージを実行します。 Spotify エンジニアリングブログでは、審査層がオンラインで出力される前に、エージェントの出力の約25%を停止すると報告しています。それなしで、4つの悪い結果のうちの1つは、ユーザーに達します。

本当に根ざした精神モデルは、他のすべてが変更したときに、洗剤が彼の職務から逸脱しないことを確認するために、evalがユニットテストであるということです。モデルは、新しいバージョンを生成し、フレームワークは破壊的な変更を公開し、サプライヤーはエンドポイントを破棄します。あなたの楕円形は、洗剤がまだ働いているかどうかを伝えることができる唯一のことです。 eval がなければ、移動対象の善意に依存する正しいシステムを書くことになります。

Braintrust、Langfuse evals、LangSmithなどのEvalフレームワークは良好です。しかし、彼らはボトルネックではありません。実際のボトルネックは、最初にマークされたデータセットを持っていることです。初日は、何かが展開される前に始まります。オリジナルの50サンプルは、午後1時に手動でマークすることができます。言い訳なし。

ファイルシステムをステートとして扱い、Think-Act-Observe サイクル

本物のマルチステップベースで動作する人には、耐久性のある構造は次のとおりです。反射、行動、観察、繰り返し。文書システムまたは構造化されたストレージは、実際のソースです。あらゆる動きは記録され、再生可能です。クロードコード, カーソル, Devin, Aider, OpenHands, これに凝縮されたすべての。

モデル自体は非状態です。実行中のフレームは状態にある必要があります。ファイルシステムは、すべての開発者が理解するステートベース言語です。このフレームワークが受け入れられると、すべての規律は自然に展開します:チェックポイント、回復可能性、サブエージェント検証、サンドボックスの実行。

そして、ここのより深い部分は、法案を払う価値があるあらゆる生産で、それはモデルよりも多くの仕事をします。モデルは、次の移動を選択し、それをチェックし、サンドボックスで実行し、出力をキャプチャし、フィードバックを返し、停止時に決定し、ポイントをチェックするときに決定し、サブエージェントを生成するときに決定します。同じ質の別のモデルにモデルを転換する、よい馬具はプロダクトを提供します。そして、世界でも最高のモデルは、彼がランダムで何をしていたかを忘れて、アンエントを生成します。

ワンタイムのツールよりも複雑に何かをビルドすると、本当に時間を費やすべき場所はハーネスです。モデルは1つのコンポーネントです。

MCPの概念的理解

MCP サーバーの呼び出し方法を学びましょう。モデルを学ぶ容量、ツール、およびエージェントのリソースとの間の明確な分離を作成し、スケーラブルな認証と伝送プログラムを下部に提供します。これを理解したら、他の「エージェント統合フレームワーク」は、MCPの低フォーマットバージョンのように見え、それらを1つずつ評価するために時間を節約できます。

Linux Foundation は MCP をホスティングしています。大手モデルプロバイダがサポートしています。サルマムよりも真実に近いようになりました。

サンドボクシングは基本的な言葉です

サンドボックスでは、あらゆる生産グレードが稼働しています。あらゆるブラウザのententは間接問題の注入を経験しました。複数のテナントは、いくつかの段階で管轄権を持っています。クライアントの要求に追加された機能ではなく、インフラの元の言語としてサンドボックスを使用する必要があります。

基本的な知識は、プロセスの分離、ネットワークのエクスポート制御、キーレンジ管理、およびエージェントとツール間の認証境界を習得する必要があります。顧客のセキュリティクリアランスがアドホックベースに交換されるのを待つチームは、多くの場合、取引を失う。第一週が企業の調達プロセスで容易に渡るので、それで働いたチーム。

ビルドとは

以下は4月2026日の特定のオプションです。これらの選択肢は変化しますが、高速ではありません。このフロアでは、退屈しているものではなく、安定したものを選ぶようにしてください。

レイヤー

LangGraphは生産環境のデフォルトオプションです。エージェントを実行している大企業のうち3分の1は利用しています。その抽象的なアプローチは、タイプの状態、条件の側面、永続的なワークフロー、およびヒトインループチェックポイントの真の形状に対応します。欠点は、それを書き上げることです。利点は、個人が実際に生産環境に入ったとき、あなたは本当にこれらのことを制御する必要があります、そしてそのチャットターは、これらの制御に対応しているということです。

TypeScript を主に使用している場合、Mastra は実際の選択です。この生態学的精神モデルの最も明確なシナリオです。

チームがPydanticが好きで、最初のクラス市民としてセキュリティを望んでいるなら、Pydantic AIは合理的なグリーンフィールドオプションです。 2025 v1.0の末尾にリリースされ、勢いは存在します。

コンピュータ、音声、リアルタイムのやりとり、Claude Agent SDK、OpenAgents SDK など、提供者ネイティブで動作するため、LangGraph ノードで使用できます。イソマーシステムのトップレイヤーを作ろうとしないでください。彼らは彼らが何をしているかに最適です。

プロトコルレイヤー

MCP、他にはない。

ツールをMCPサーバーにまとめます。外部の統合は同じ方法で消費されます。 MCP が閾値を渡しました。ほとんどの場合、自分でビルドする必要がある場合は、既製のサーバーを見つけることができます。 2026年に、手書きの自己定義された用具は、ほとんど自由のために加えられました。

記憶層

メモリシステムを選択するときは、熱ではなく、個々の自律性で選択してください。

Mem0はチャットのパーソナライゼーションに適しています:ユーザーの好み、軽い歴史。 Zepは、特に状態が進化し、物理的な追跡を必要とする状況で、生産レベルの対話システムに適しています。 Letta は、数日または数週間の作業サイクルで一貫性を必要とする人に適しています。ほとんどのチームはこれを必要としません。しかし、本当に必要なのは、必要なだけです。

一般的なエラーはメモリの問題がないことですが、メモリフレームワークは最初にあります。コンテクストウィンドウがどのコンテクストウィンドウに対応できるか、ベクターデータベースから始めましょう。解決したい失敗のパターンを明らかにすると、メモリシステムにメモリを追加するだけです。

観察可能および無効

Langfuseはオープンソースのデフォルト選択です。 MITライセンスを使用して、トレース、プロンプトバージョン管理、およびベースLLM-as-judge evalをカバーすることができます。既にLangChain ユーザの場合、LangSmith インテグレーションは近い。 Braintrustは、研究型楕円形のワークフロー、特に厳密な比較を必要とするものに適しています。 OpenLMetry/Traceloop は、ベンダニュートラル OpenTelemetry の統合を必要とする多言語リポジトリに適しています。

両方のトレースと楕円形を持っている必要があります。答えたトレース、「エージェントは何をしたの?」 Evalsは「昨日よりも良いですか?」と言いました。いいえ、オンラインで行っていません。初日は、ブラインドを走った後に修理するよりもはるかに低いコストでこれらのアイテムが固定されます。

ランタイムとサンドボックス

一般的なサンドボックスコードの実行に適したE2B。ブラウザの自動化に適したStagehandのBrownserbase。アンソロピーカンパニー実際のオペレーティングシステムレベルのデスクトップ制御を必要とするシナリオに適しています。 Modal は短期サージの割り当てのために適しています。

サンドボックスなしでコードを実行しないでください。急激な注射で壊れた、生産環境で直接走ると、爆発の半径は決して伝えたくない話になります。

モデル

ベンチマークの追求は疲れ、ほとんどはあまり役に立ちません。実際には、4月2026のように:

クロード・オパス 4.7 とソネット 4.6 コール、マルチステップの一貫性、エレガントな故障回復に適したツール。ほとんどのジョブが読み込みます。ほとんどの仕事のために、Sonnetは費用と性能の間の甘い場所です。

GPT-5.4 および GPT-5.5 は、最も強力な CLI/ターミナル推論機能の必要性、または OpenAI インフラに住んでいる事実に適しています。

Gemini 2.5 と 3 は、コンテキスト・インテンシブまたはマルチ・モード・インテンシブ・タスクに適しています。

コストがトップレベルのパフォーマンスよりも重要である場合、特に明確で狭い方法で定義されたタスクを扱う場合、DeepSeek-V3.2またはQwen 3.6は考慮される場合があります。

モデルは交換部品と見なされます。エージェントがモデルでしか動作できない場合は、モットではなく、悪臭です。 eval を使用して、デプロイするモデルを決定します。毎週ではなく四半期ごとに再評価。

スキップできますか

これらのことを勉強し、使用するために常に説得されます。お問い合わせそれらをスキップする費用は低く、多くの時間を節約します。

AutoGenとAG2は、生産のためにではなく、。
マイクロソフトのフレームワークは、コミュニティのメンテナンスにシフトしました, 配布の著名なペースと、生産チームが本当に必要とするフォームに対応していない抽象的なアプローチ. アカデミックリサーチは可能ですが、そうではありません。

CrewAIは、新しい生産構造のためではなく、。
デモに最適です。実際に生産システムを構築した技術者は、そのうちに動いています。試作品を作りたいのですが、長くはあまり気にしないでください。

Microsoft Enterprise テクノロジーに深くロックされていない限り、Microsoft Semantic Kernel、およびバイヤーケア。
生態系が見出している方向ではありません。

DSPy は、迅速なプログラムの大規模な最適化を専門としない。
それは哲学的価値を持っていますが、その聴衆は非常に狭いです。一般的なフレームワークではなく、一般的なフレームです。

構造選択として独立したコード・リングのanentを使用して下さい。
Code-as-action は興味深い研究の方向ですが、生産環境ではデフォルトモデルではありません。競合他社に対処できないツールやセキュリティ上の問題が多数あります。

「自動委任」。
AutoGPT と BabyAGI は、既にその製品パターンで死にます。結局、業界は「エージェントのエンゲージメント」の正直性を認めた:監督、ボーダー、評価。 2026年、展開後もオートノマイズ・アンエントを販売していた人々は、基本的に2023を販売していた。

エージェントのアプリストアとMarktplace。
2023年以来、人々はこれに専念していますが、本当にビジネスの取引を持っていません。企業は、一般的なプレハブの派生者を購入しません。彼らは、特定の結果に垂直の添付ファイルを購入するか、自分自身をビルドします。アプリのストーリーを夢見ながらビジネスを設計しないでください。

クライアントとして、水平な「任意の有能なビルド」ビジネスプラットフォームの慎重な選択。
例えば、Google のエイジスペース、AWS の岩盤のアルゼンチン、マイクロソフト Copilot のスタジオ。彼らは将来的に有用であるかもしれませんが、彼らはまだ悲劇と遅い分布にあり、購入対ビルドの本は通常、狭い陰部を構築したり、垂直を購入する傾向があります。例外は Salesforce Agentforce と Servicenow Help で、既に使用しているワークストリームシステムで勝つためです。

SWE-benchとOSWorldのランキングに従わない。
2025年に記録されたバークレー研究者は、ほとんどすべてのオープンベンチマークは、本当にボトムタスクを解決することなくランク付けすることができます。今度は、Terminal-Bench 2.0 と内部の evals をより実信号として使用します。デフォルトでは、単一のベンチマークのリードの数の疑わしいままです。

naive は複数のエージェント構造を並列化します。
共有メモリについてチャットする5つのエージェントとデモでは、かなり良く見え、それが終わったら、それは破壊します。ナプキンに明確なオーケスト・サブゼントのマップを描画し、読み書き境界をマークできない場合は、オンラインでは行っていません。

シートSaaSでは、新しいエージェント製品が販売されていません。
市場は、結果ベースと使用方法ベースに変わりました。座席手数料は、あなたにとってお金が減るだけでなく、製品が届けると信じていなかったバイヤーに信号を送ります。

今週ハッカーニュースで見る次のフレーム。
6ヶ月待ってください。それでも問題が起きた場合は、問題がなければ、移動を1つ保存します。

進む方法

あなただけの洗剤で追いつくことをしようとしているが、あなたは本当に洗剤を使いたいなら、次の注文は有効です。退屈ですが、便利です。

まず、すでに重要な結果です。月を選択しないでください, 来て、水平の "エージェントプラットフォーム" プロジェクトを実行しません. あなたのビジネスが興味をそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそそもそもそもそもそもそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそろそエージェントの成功は、この結果の改善に依存します。日頃から目標が進んでいます。

この手順は、すべてのその後の決定をバインドしているため、他のステップよりも重要です。具体的な結果では、フレームワークの選択はもはや哲学的な問題ではありません、そしてあなたはできるだけ早くこの結果をもたらすフレームワークを選択します。モデルの選択はもはやベンチマーク引数ではありませんが、この特定のジョブの効果的なモデルを証明するために、あなたの楕円形の選択。「メモリ、サブエージェント、カスタム履歴は必要ありません」は、もはや思考の実験ではありませんが、特定の障害パターンが必要な場合にのみ追加されます。

このステップをスキップするチームは、誰も望んでいない水平なプラットフォームを作ることに終わることが多いです。このステップを真剣に受け止めたチームは、通常、四半期内に返すことができる狭いものを提供します。そして、この本当にオンラインエージェントは、読むために2年以上それらを教えます。

何かと並んで行く前に、トレースと楕円形を設定します。 Langfuse または LangSmith をピックアップします。必要に応じて、手動で小さな金データセットを作成できます。 50 個のラベル付きサンプルが起動するのに十分です。測定できないものを修正することはできません。システムの費用は約10倍になります。

単一のアンエントループで起動します。 LangGraph または Pydantic AI を選択します。モデル選択クロードソネット 4.6 または GPT-5. 3〜7つのウェルデザインされたツールに3〜7個のツールを装着します。ファイルシステムやデータベースをステートとして作成します。まずは小さなユーザーへ送信し、トラックを見る。

プロジェクトではなく、製品として存在することを検討してください。期待していなかった方法で失敗し、その失敗はロードマップです。実際の生産でセットされたリターンを組み立てます。各プロンプトの変更、モデル交換、ツール変更は、デプロイ前に渡されます。ほとんどのチームは、ここに入力を優先し、ほとんどの信頼性はここから来ます。

スコープを拡大する権利を獲得した時だけなので、複雑さを増やします。コンテキストがボトルネックになると、サブエージェントが導入されます。単一のウィンドウのコンテキストが必要なコンテンツを運ぶことができないときにメモリフレームをインサートします。一番下の API が本当に存在していないとき、コマンドの使用や、Browner の使用について紹介します。これらのものを事前に設計しないでください。失敗モードがそれらを引っ張るようにして下さい。

退屈なインフラを選択します。ツールはMCPを使用します。サンドボックスはE2BまたはBrownserbaseを使用します。 Postgres のステータス、または既にデータストレージを実行している状態。認証および保守性は、既存のシステムに可能な限り従います。見知らぬインフラは、真の勝者であり、真の勝者は規律です。

初日から、ユニットエコノミーモデルを見ました。各アクションコスト、キャッシュレート、再テストサイクルコスト、モデルコール分布。エージェントは、PoC フェーズで安く見えますが、監視結果のコストを開始しない場合は、100 倍大きいときに爆発します。 PoC の 1 回の実行あたり US$ 0.50 は、1 ヶ月あたりの US$ 50,000 を中規模で得ることができます。事前に見たことがないチームは、CFO会議が気に入らない。

モデルは週単位ではなく四半期ごとに再評価されます。四半期のロック。四半期末には、現在のフロントモデルを楕円形のスーツで実行します。データが変更を示す場合、変更が行われます。そのため、各リリースを追いかける混乱を避けながら、モデルの進歩の利点を得ることができます。

潮を判断する方法

次のことは何かが本当であるかもしれない特定の信号です: 尊敬するエンジニアリングチームは、それがどのように多くの人がそれを使用するかを主張するだけでなく、デジタルのpostmoremを書いています。それは、プロトコル、モデル、またはインフラなどの基本的な言語で、シェルやパックではありません。それはあなたがすでに実行しているシステムと相互作用しています。そのピッチは、それが開いているものではなく、それが解決するものについて話します。それは「どこに動作しない」というブログを書くのに十分な長さでした。

以下は、何かがちょうどノイズである可能性があることを示す特定の信号です: 30 日後、デモビデオと生産例はまだありません。ベンチマークジャンプは、彼らが真実であるようにきれいではありません。ピッチは、「自律的」または「任意の機会をビルド」を資格なしで使用しています。フレームワーク文書は、既存のトレース、auth、configを捨てると約束します。スター番号は急速に成長していますが、数字は同時に成長していません。 Twitter は高速ですが、GitHub は更新できません。

週単位で30分程度の週単位の習慣で、このフィールドを見るのに便利です。 3つのことを読む:人類工学ブログ、サイモン・ウィリソンのノート、ラテントスペース。今週のpostmoremがある場合、もう1つまたは2つをきれいにしてください。残りはスキップできます。あなたが見逃さない本当に重要な何か。

お問い合わせ

次の2つの四半期は、彼らが勝つためではなく、これは信号であるか、完全に解決されていないかどうかの問題が指摘する価値があります。

Reflit Agent 4 用の並列フォークモデル。
これは、共有状態をトリップせずに「マルチエージェント並列作業」を真剣に試みる最初のオプションの1つです。サイズの後に戻りできる場合、このデフォルトパターンは変更される場合があります。

アウトカムベースの成熟度。
シエラとハーベイの収入の軌跡は、狭い垂直領域で検証されています。質問は、他の領域や垂直のシナリオだけに拡張できるかどうかでした。

能力封入層としてのスキル。
GitHubのAGENTS.mdとスキルディレクトリの成長は、個々の能力をカプセル化する新しい方法が現れていることを示しています。 MCP標準化ツールのような機能レベルで標準化されるかどうかは、オープンな質問です。

Claudeコード, 4月 2026, 質量リトリートとリセット。
1つの業界大手のエージェントは、受信する性能の47%を引き起こしたバージョンをリリースし、最初にユーザーによって発見され、内部監視の後。これは、リード、生産レベルのプラクティスであっても、まだ非常に不透明であることを示唆しています。この事で、業界全体がより優れたオンライン楕円形を投資するのであれば、これは健康です。

ボイスはデフォルトのクライアントインターフェイスになります。
シエラの音声チャンネルは2025年までにテキストチャネルを上回りました。モデルは他の垂直領域で継続している場合, 遅延などの設計制約, 中断とリアルタイムツールコールアップは、一流の問題になります, 多くの既存の構造は、再作業する必要があります。

オープンソースモデルのアンジェント機能はギャップを削減し続けます。
DeepSeek-V3.2の特長ネイティブ・サポートの思考・ツール・ユース、Qwen 3.6、より広いオープンソース・モデルのエコロジーが懸念されています。狭いエージェントミッションのコストパフォーマンスが変化しています。クローズド・ソース・モデルのデフォルトの利点は永続的ではありません。

これらの各点は、明確な質問に答えることができます。「6ヶ月で見なければならないことは、本当に重要だと信じる必要がありますか? テストです。回答を追跡し、箇条書きではありません。

珍しいベットです

使わないフレームは、未来を追わないマイグレーションです。あなたが追いていないすべてのベンチマークは四半期ごとに焦点です。このサイクルを獲得している企業 — シエラ, ハービー, カーソル, それぞれ独自のフィールドで — 狭いターゲットを選択しました, 退屈な規律を確立し、その後、通過するために、この領域で騒音を許しました。

伝統的な道は、技術倉庫を選択し、それをマスターし、梯子を登るために何年もかかります。テクノロジーが10年連続で安定させることができるときのこの作品。しかし、今、技術は四半期ごとに変化しています。実質の勝者はもはや「技術の倉庫の制御を取る」能力を、むしろ好み、基本的な言語および配達の速度を最大限に活用しません。小さなものをオープンに構築し、配信することで学びます。何かをしたので、部屋にドラッグしてみました。仕事自体は資格です。

この記事全体が本当に言うことを望んでいるので、それは慎重に考えます。私たちのほとんどが受け入れる仕事モデルは、高齢者が成長できるように十分な長さのために、世界が十分に安定していると仮定します。学校に行く、学位を取得、梯子を登る。ここ2年は3年経ち、再開はゆっくりドアを開けるものになります。全機械の前提は、その側に業界のために十分に安定していることです。

しかし、フィールドに安定した「opposite」はありません。参加希望の会社が6ヶ月以内になる場合があります。フレームワークは 18 ヶ月の古いフレームワークを作ることができます。契約の締結は2年以内とします。このエリアで最も頻繁に引用された記事の半分は、この地域で3年前でさえもなかった。建物が変わっているので、登る梯子はありません。梯子が失敗すると、残りは何かを作るための古い方法です。インターネット上に置くと、自分で紹介することができます。これは、資格システムをバイパスするので、珍しいパスです。しかし、移動領域では、本当に弾力的な成長への唯一の道です。

内側から見たこと。巨人でさえ、オープンに存在します, 出版のリターンの問題, フラッシュバックやオンラインパッチを書く. 今年の最も興味深いチームは、このエリアではなかった 18 ヶ月前. コードを記述しない人は、実際のソフトウェアを配信する、エージェントと連携しています。医師は、基本的な言語を選択し、すぐに移動し始める人によって引き継がれているかもしれません。ドアを開けました。ほとんどのアプリケーションがまだ探しています。

「エージェント」ではなく、本当にスキルを開発する必要があります。むしろ、表面に変化する分野の成長からどのジョブが利益をもたらすかを判断する規準です。コンテキストが増えると増加します。工具の設計は価値の増加します。オーケストラ・サブエージェントのモデルが増えることが予想されます。 Eval Disciplinary は値を追加します。ハーネスの考え方は成長を後押しします。火曜日はフレームワーク API がリリースされるだけではありません。それらを区別できると、毎週新しいリリースの波がストレスのように見えなくなり、無視できるノイズになります。

全てを学ぶ必要はありません。成長しようとしているものを学び、成長しないものをスキップする必要があります。 1つの結果を選択します。あなたがオンラインで行く前にキャッチと楕円形。 LangGraph を使うか、チームと同等である。 MCP を使用します。サンドボックスにランタイムを入れます。デフォルトはシングルアントで始まります。失敗パターンが複雑さを引っ張るときだけスコープを拡大します。モデルは四半期ごとに再評価されます。金曜日の3つのことを読む。

これは playbook です。味、納期、満足のスピードは、無関係なものを追求するものではありません。

ビルドするインターネット上に置く。この時代は、物事だけを記述する人ではなく、物事を作る人たちに報います。「本物のメーカー」に最適なウィンドウです。

[ チャック ]オリジナルリンク]

2026 AI学習マニュアル:学習、使用、触れない