15分でざっくり概要をつかめるAIエージェント入門

2025 1/16

2025年1月16日 2025年1月16日

2025年は「AIエージェント元年」と呼ばれています。

SalesforceのCEOマーク・ベニオフが「Agent First」を掲げ、LayerXの福島氏も2025年を「AI Agent」の年とするなど、業界を代表する経営者たちがAIエージェントの重要性を強調しています。

私も一生に何度あるかわからないこういったトレンドに乗れるなら乗っとこうということで、年始からAIエージェントのインプットを進めており、そろそろ、自分でもサンプルアプリぐらい作ってみようかと思っております。

そこで今回は「非エンジニアがAIエージェントのサンプルアプリを作る意思が固まるまでにインプットした内容」を記事にしてみました。

さらっと読んでみてください。

AIエージェントに力を入れる著名人の発言

冒頭でもお伝えしましたが、多くの著名人、企業が「2025年はAIエージェントの年」ということで、実際にプロダクトを開発していたり、シンプルに宣言していたりします。

今年はAIエージェントに少なからず張っておいた方が良いということを感じてもらうため、いくつか著名人の事例、発言を紹介します。

LayerX CEO：福島氏

福島氏、及びLayerXは毎年未来予測＋来年の意気込みとしてコミットするテーマをnoteで公開してくれているのですが、2025年の今年は以下記事でした。（ちなみに2023年は「コンパウンドスタートアップ」、2024年は「AI Transformation」でした）

AI Agent Era｜福島良典 | LayerX

以下引用のように「AI Agent Firstな会社」とし、2025年はAIエージェントにフルベットすると発表しております。

今後起こる競争は、「既存のSaaS企業がより狭く定義されたAI Agentを素早くデプロイする」 VS 「新興勢力が生成AIによってカバー範囲が広がったVertical AIから中核のワークフローにのぼってくる」という競争です。

当社も例に漏れず、SaaS + AI Agentの体験を誰よりも速く作り出していきます。今まで顧客と向き合い作り込んできたバクラクのアセットを活かしつつ、AI Agent Eraに求められるような全く新しい体験をつくる。AI Agent Firstな会社に生まれ変わらせていきます。

ジールス CEO：清水氏

「日本をぶち上げる」という大きな志を持つ激烈熱血起業家として知られるジールスの清水氏も2025年はAIエージェントのプロダクトで勝負をかけていくと語っています。

2025年は接客AIエージェントのプロダクトレッドグロース(PLG)で勝負します。USにプロダクトで挑みます。

US挑戦を通じて「The Agent Era」と言われ爆裂しているAIエージェントの震源地で、お客様とともにたくさんのことを学ばせもてもらい、この新たなAIプロダクトを形にしてきました。

ジールスのアメリカ挑戦の苦闘と接客AIエージェントの今後｜Masa Shimizu / ZEALS(ジールス)

セールスフォース CEO：マーク・ベニオフ氏

マーク・ベニオフ氏は、今回の発表を通して、企業が「情報管理」から「デジタル労働管理(AIエージェントをはじめとするデジタル労働力を組織的に計画、展開、運用、最適化する包括的なアプローチ)」へと移行する時代が到来したことを強調しており、単なる業務の効率化ではなく、ビジネスモデルそのものが変わるパラダイムシフトになると主張しています。

そして、Agent Forceがこの変革をリードする存在であると位置付け、企業が人手不足や生産性の停滞といった課題を解決するための鍵になると訴えております。

Introducing Agentforce 2.0 with Marc Benioff | Salesforce – YouTube

OpenAI CEO：サム・アルトマン氏

サム・アルトマン氏は「最初のAIエージェントが『労働力に加わり』、企業の生産量を大幅に変える可能性がある」という予測をしており、

We are now confident we know how to build AGI as we have traditionally understood it. We believe that, in 2025, we may see the first AI agents “join the workforce” and materially change the output of companies. We continue to believe that iteratively putting great tools in the hands of people leads to great, broadly-distributed outcomes.

そしてそのAIエージェントがその先にある人間が何もする必要のないくらいのスーパーインテリジェンスに繋がると述べています。

We are beginning to turn our aim beyond that, to superintelligence in the true sense of the word. We love our current products, but we are here for the glorious future. With superintelligence, we can do anything else. Superintelligent tools could massively accelerate scientific discovery and innovation well beyond what we are capable of doing on our own, and in turn massively increase abundance and prosperity.

Reflections – Sam Altman

Hubspot CTO：ダーメッシュ・シャー氏

参考記事において、2025年にはAIエージェントは単なるツールから大きく進化し、私たちの仕事や生活に深く浸透すると予測し、具体的に以下3つが起こると主張しています。後ほど少し掘り下げます。

マルチエージェントネットワークの台頭
特定分野向けエージェントがSaaSのような進化を遂げる
AIエージェントが（一部の）デジタルライフを処理し始める

3 Predictions for the Future of AI Agents in 2025

AIエージェントとは？

著名人の発言を取り上げてきましたが、肝心のAIエージェントについてわからない方のためにClaudeを提供するAnthropic社によるAIエージェントの定義を見ていきましょう。

「エージェント」はいくつかの方法で定義できます。
一部の顧客は、エージェントを、複雑なタスクを達成するために様々なツールを使用し、長期間にわたって独立して動作する完全自律システムとして定義します。
また、事前定義されたワークフローに従う、より規定的な実装を指す用語として使用する人もいます。
Anthropicでは、これらすべてのバリエーションをエージェントシステムとして分類しますが、ワークフローとエージェントの間で重要なアーキテクチャ上の区別を設けています。

ワークフローとは、LLMとツールが事前定義されたコードパスを通じて調整されるシステムです。

エージェントとは、LLMがタスクを達成する方法を制御し、自身のプロセスとツールの使用を動的に指示するシステムです。

効果的なエージェントの構築｜ Anthropic公式サイト

よりわかりやすく説明すると以下のような形だと考えられます。

ワークフロー (RPAのようなもの): 従来からあるRPA（ロボティック・プロセス・オートメーション）と似たもので、事前にプログラムされた手順に従って、決められた目的を達成するために動くシステム。
指示された通りに動くロボットのようなもので、手順や目的はあらかじめ人間が設定します。
エージェント: 人間が指示をしなくても、自分で目的を設定し、その目的を達成するためにプロセス自体を自ら考え、行動するシステム。
自分で考えて動くことができる、より人間に近い存在です。

AIエージェントによって起こる変化

3つの大きなトレンド

先ほど少し触れたHubspot CTO：ダーメッシュ・シャー氏によるとAIエージェントは以下3つの主要なトレンドとして仕事や生活に浸透してくると予測しています。

マルチエージェントネットワークの台頭

図のように必ずしもコアとなるようなエージェントが全てのツールで存在するわけではありませんが、エージェントを複数用意し、それぞれ得意な担当領域を割り当て、より複雑な課題に対応するのがマルチエージェントとなるようです。

特定分野向けエージェントがSaaSのような進化を遂げる
ChatGPTやClaudeのような汎用的なAIではなく、開発AIエージェントのReplitや検索AIエージェントのFeloのように特定の業界や業務に特化したAIエージェントが登場し、Sass以上の価値を提供するようになると予想。

既存ソフトウェアの操作といったタスクを自動化し、ワークフロー全体を効率化することで、多くの業界に変革をもたらすことになると述べています。

エージェントが（一部の）デジタルライフを処理し始める

AIエージェントが個人のアシスタントとして機能し、好みや行動パターンを学習し、私たちの代わりに様々なタスクを実行してくれるようになるというものです。

かつての旅行代理店のように、複雑な手続きや情報収集をAIエージェントに任せることで、私たちはより重要なことに集中できるようになります。旅行計画だけでなく、ビジネスソフトウェアの選定、スケジュール管理など、多岐にわたる領域で活用が期待されます。エージェントは利用者の行動を学習することで、時間経過とともにその能力を高めていくと予想しています。

生活のほとんど全ての意思決定をAIに委ねてしまうようになるかもしれません。

企業間の戦いの予測

福島氏やマーク・ベニオフ氏、Benedict Evans(アナリスト: Andreessen Horowitzの元パートナー)の見解を総合すると、2025年の企業間競争は以下の特徴を持つと予測されます。

競争構造の二極化
- 既存SaaS企業：顧客基盤を活かしたAIエージェントの迅速な実装
- 新興AIネイティブ企業：既存ワークフローへの侵食と再定義
LLM/AIエージェントの支配的影響
- すべてのソフトウェア機能のAPI化
- アプリケーションの統合・簡素化
デジタル労働へのパラダイムシフト
- 情報管理からデジタル労働管理への移行
- 人的リソースの補完・代替の本格化
- 従来の製品やサービスから、AIエージェントを核とした新たなビジネスモデルへとシフトする可能性

また、この競争環境下では、企業の成否は以下の要因に左右されると考えられます。

AIエージェント実装のスピードと質
既存ワークフローの再定義能力
デジタル労働の成熟度

特に注目すべきは、この変革が単なる技術革新ではなく、ビジネスモデルそのものを根本から変える可能性を秘めている点です。

o1 ProやdevinやセールスフォースのAgent Forceのように高額かつ高性能なAIツールも出てきましたが、今後は人を雇うのではなく、こういった高額のAIの導入をまずは考え、AIエージェントドリブンで企業運営を進めていくという時代になっていくのでしょう。

これからのキャリアについて真剣に考えていかないと本格的に仕事がなくなってしまいそうですね。。

AIエージェントの種類

次はAIエージェントの大まかな種類についてです。

従来の生成AIは、ユーザーからの入力を待って出力を生成し、行動を起こしましたが、AIエージェントの場合は与えられたデータを分析し、その分析結果に基づいて行動します。

例えば、AIエージェントによって動作する顧客サポートAIチャットボットは、企業データを分析してユーザーの質問に答え、正しい回答を返します。
もし顧客の質問に対応できる十分なデータがない場合、それを認識し、第一世代のAIとは異なり、応答を生成します。

個人や企業の特定のユースケースに合わせて、さまざまな種類のAIエージェントが存在するので、自分でもAIエージェントを作る際にこれらのどの種類に当てはまるのかを把握しておくと良いでしょう。

単純反射AIエージェント(Simple Reflex AI Agents)

単純反射エージェントは、最も基本的な形態のAIエージェントです。
入力に基づいて意思決定を行い、学習段階や記憶なしに即座に応答します。
条件-行動ルールに従って出力を生成し、特定の入力に応答することを目的としています。主な機能は以下。

自然言語処理: 単純反射エージェントは、自然言語処理を使用して基本的な入力に応答を生成します。
条件-行動ルール: 単純反射エージェントは、定義済みのキーワードまたはフレーズの入力に応答するように設計されています。単純反射エージェントは、企業データを分析したり、会話の文脈を理解したりする時間を無駄にすることなく応答を生成します。
自動化: 単純反射エージェントを使用して、準備されたメールの返信を送信するなど、基本的なタスクを自動化できます。

前述したClaudeの定義で言うとワークフローみたいなエージェントということですね。

モデルベース反射AIエージェント(Model-based Reflex AI Agents)

モデルベース反射エージェントは、意思決定を行う前に現在の状況を考慮し、行動の結果と起こりうる結果を分析して最良の意思決定を行います。主な機能は以下。

状態トラッカー: 現在の状態に関する情報を収集します。
知識: 現在の状態と、エージェントの行動がどのように影響するかという2種類の知識を持つ

目標ベースAIエージェント(Goal-based AI Agents)

目標ベースエージェントは、現在の状況だけでなく、特定の目標を達成するために必要なアクションも考慮します。
与えられた目標を達成するための計画を作成する際に、情報を収集し、計画行動の結果を評価します。主な機能は以下。

目標状態
計画メカニズム
状態評価
行動選択

学習AIエージェント(Learning AI Agents)

学習エージェントは、会話、経験、インタラクションを利用して、自身とその行動をトレーニングします。
割り当てる目標と提供するフィードバックに基づいて継続的に改善し、理想的なAIアシスタントとなるでしょう。
事前にプログラムされた知識に頼るのではなく、自身の経験とインタラクションを利用して目標を達成します。

効用ベースAIエージェント(Utility-based AI Agents)

効用ベースAIエージェントは、行動の潜在的な結果を評価し、全体的な効用を最大化することを目指します。
数値的な値を計算するために数学的スキルを使用し、さまざまな結果を評価して、数値的に最も有用なものを選択します。
効用ベースAIエージェントには、スマートビルディング管理、リソース割り当てシステム、スケジューリングシステムなどのユースケースがあります。

なんかこれは難しいっすね。。

階層型エージェント

階層型AIエージェントとは、上位レベルのエージェントが下位レベルのエージェントを管理し、タスクを割り当てる構造化されたシステムを指します。
複雑なタスクを管理しやすいサブタスクに分割することで、組織化され、制御された意思決定プロセスを提供します。

2025年に知っておくべき6種類のAIエージェント

AIエージェントの5つの主要ワークフロー

次は実際にAIエージェントを実装するにあたっての大まかなワークフローです。
以下で紹介する形に則ってワークフローを定義してから実際の実装に移るのが良いでしょう。

プロンプト・チェイニング(Prompt chaining)

概要:
- プロンプト・チェイニングはタスクを連続したステップに分解する手法で、各LLM呼び出しは前の呼び出しの出力を処理する。プロセスが順調に進んでいることを確認するために、中間ステップにプログラムによるチェック（図の「gate」）を追加できる
ユースケース:
- タスクが簡単かつ明確に固定されたサブタスクに分解できる状況に最適。主な目標は、各LLM呼び出しをより簡単なタスクにすることで、処理は少し時間がかかるが、精度を向上させることが可能。
例:
- マーケティングコピーを生成し、それを別の言語に翻訳する。
- ドキュメントの概要を作成し、その概要が特定の基準を満たしているか確認し、その後、その概要に基づいてドキュメントを作成する。

ルーティング(Routing)

概要:
- ルーティングは入力を分類し、専門的なフォローアップタスクに誘導する手法。このワークフローにより、役割の分離と、より特化したプロンプトの構築が可能になります。このワークフローがないと、ある種類の入力に最適化するものの、他の入力に対してはパフォーマンスを損なうという可能性が起こりうる。
ユースケース:
- タスクごとに明確なカテゴリがあり、それらを個別に処理する方が適切な複雑な場合や、LLMまたは分類モデル/アルゴリズムによって正確に分類できる場合に適している。
例:
- さまざまな種類の顧客サービス問い合わせ（一般的な質問、払い戻しリクエスト、技術サポート）を、異なるプロセス、プロンプト、ツールに振り分ける。
- 簡単/一般的な質問を Claude 3.5 Haiku のような小型モデルに、難易度が高く/珍しい質問を Claude 3.5 Sonnet のような高性能モデルにルーティングして、コストと速度を最適化する。

並列化(Parallelization)

概要:
- 並列化はタスクを同時に実行し、その出力をプログラムで集約する手法。並列化は、主に2つの種類がある。
- セクション化: タスクを独立したサブタスクに分割し、並行して実行する。
- 投票: 同じタスクを複数回実行して、多様な出力を得る。
ユースケース:
- 分割されたサブタスクを高速化のために並列化できる場合、または、より確実な結果を得るために複数の視点や試行が必要な場合に効果的。複数の考慮事項がある複雑なタスクの場合、各考慮事項を別々のLLM呼び出しで処理する方がパフォーマンスが向上する。
例:
- セクション化:
  - あるモデルがユーザーの検索ワードを処理し、別のモデルが不適切なコンテンツやリクエストをスクリーニングするような実装。これは、同じLLM呼び出しでスクリーニングと検索結果の両方を処理するよりもパフォーマンスが向上する傾向がある。
  - LLMパフォーマンスの評価を自動化。各LLM呼び出しは、特定のプロンプトに対するモデルのパフォーマンスの異なる点を評価する。
- 投票:
  - コードの脆弱性をレビューする。複数の異なるプロンプトがコードをレビューし、問題を見つける。
  - 特定のコンテンツが不適切かどうかを評価する。複数のプロンプトが異なる側面を評価する。

オーケストレーター・ワーカー(Orchestrator-workers)

概要:
- オーケストレーター・ワーカーは中央のLLMがタスクを動的に分解し、ワーカーLLMに委任し、それらの結果を統合する手法。
ユースケース:
- 必要なサブタスクを予測できない複雑なタスクに適している（例えば、コーディングでは、変更が必要なファイルの数や、各ファイルでの変更の性質はタスクによって異なる）。形は似ているが、並列化との重要な違いは、その柔軟性。サブタスクは事前定義されているのではなく、特定の入力に基づいてオーケストレーターによって決定される。
例:
- 毎回複数のファイルに複雑な変更を加えるコーディング製品。
- 関連性のある可能性のある情報を複数のソースから収集および分析する検索タスク。

評価者・最適化(Evaluator-optimizer)

概要:
- 評価者・最適化はあるLLM呼び出しが応答を生成し、別のLLM呼び出しがループ内で評価とフィードバックを提供する手法。以下2つがよく当てはまる。
- 1つ目は、LLM応答が人間によってフィードバックが明確に伝えられた場合に明らかに改善される。
- 2つ目は、LLMがそのようなフィードバックを提供できること。人間が洗練されたドキュメントを作成する際に行う反復的な執筆プロセスに類似している。
ユースケース:
- 明確な評価基準があり、反復的な改善が測定可能な価値を提供する場合に特に効果的。
例:
- 文学翻訳。翻訳者LLMが最初は意味を捉えきれないニュアンスのフレーズを評価者LLMがフィードバックする。包括的な情報を収集するために複数回の検索と分析が必要な複雑な検索タスク。評価者は、さらなる検索が必要かどうかを判断する。

効果的なエージェントの構築｜ Anthropic公式サイト

AIエージェントを実装するためのフレームワーク

最後に上記ワークフローを簡単に実装するために存在しているフレームワークを紹介していきます。ここについてはまだ自分も触ったことがなく、これから随時触っていく予定なので、具体的な内容はまた別の記事で書こうと思っています。

AutoGen

AutoGenは、Microsoftが開発したオープンソースのマルチエージェントフレームワークで、大規模言語モデル（LLM）を活用して複数のAIエージェントを連携させることを目的としています。
Pythonのライブラリとして提供されており、以下のような特徴を持っています

特徴
- 複数のエージェントが協調してタスクを遂行。
- カスタマイズ性が高く、複雑なタスクの自動化を支援。
- 人間の入力やフィードバックを取り入れることが可能。
- 会話ベースのワークフローを中心に設計されており、グループチャットやネストされたチャットなどの柔軟な会話パターンをサポート。
ユースケース
- コード生成: エージェントが協力してプログラムコードを生成し、実行することができる。
- データ分析: 複数のエージェントがデータ分析を行い、結果を共有することで、より深い洞察を得ることが可能。
- グループチャット: 複数のエージェントが参加するグループチャットを通じて、意見交換や意思決定を行うことができる。

CrewAI

CrewAIは、オープンソースのPythonフレームワークであり、複数のAIエージェントが協力して複雑なタスクを遂行するためのシステムを構築することを目的としています。
このフレームワークは、エージェントに特定の役割を割り当て、自律的な意思決定を可能にし、エージェント間のコミュニケーションを促進します。

特徴
- エージェントに「役割」「目標」「背景」「ツール」を設定し、個性を持たせる。
- 高い抽象化レベルで簡単にエージェントを構築可能。
- 柔軟なタスク管理とエージェント間のタスク委任をサポート。
- LangChainやLlamaIndexなどのツールとの互換性。
ユースケース
- データ分析: AutoGenと同じく、複数のエージェントが協力してデータを分析し、結果を共有することで、より深い洞察を得ることができる。例えば、マーケティングデータを分析して顧客の傾向を把握することが可能。
- プロジェクト管理: エージェントがタスクを自動的に割り当て、進捗を管理することで、プロジェクトの効率を向上させることができる。
- カスタマーサポート: 複数のエージェントが顧客からの問い合わせに対応し、情報を共有することで、迅速かつ効果的なサポートを提供する。

Swarm

Swarmは、OpenAIが開発した実験的なマルチエージェントオーケストレーションフレームワークで、複数のAIエージェントが協力して複雑なタスクを実行することを目的としています。
このフレームワークは、軽量で柔軟な設計が特徴であり、開発者が簡単にエージェントを構築し、連携させることが可能。
段階的に学習を進められるチュートリアルも用意されております。

特徴
- 軽量でシンプルな設計: Swarmは、最小限の抽象化を用いてエージェントの構築とオーケストレーションを可能にする。これにより、複雑な設定なしにマルチエージェントシステムを簡単に構築できる。
- ハンドオフとルーチン: エージェント間でのタスクの引き継ぎ（ハンドオフ）や、エージェントが従うべき手順（ルーチン）を定義することで、複数のエージェントがシームレスに協力してタスクを処理。
- クライアントサイド実行: Swarmはクライアントサイドで実行され、開発者がシステムの動作を完全に制御できるため、デバッグやシステムの挙動の理解が容易。
- スケーラビリティ: 必要に応じてエージェントを追加することで、システムを容易にスケールできます。各エージェントは特定のタスクに特化できるため、複雑な問題を効率的に処理可能。
用途
- カスタマーサービスボット: 顧客の質問に応じて適切な担当エージェントに転送することで、高度なカスタマーサービスを提供。例えば、特定の問題に対して専門のエージェントが対応することができる。
- 複雑なシミュレーション: 複数のエージェントが相互作用する複雑なシミュレーションを構築し、市場の動向をシミュレートすることが可能。
- 大規模データ分析: データの分割と並列処理によって、大規模なデータ分析を効率化します。各エージェントがデータの一部を処理し、結果を統合することで、処理時間を短縮できる。

Browser Use

Browser Useは、Pythonライブラリで、AIエージェントがウェブブラウザを自動的に操作するためのツールです。
このライブラリは、特に生成AIと組み合わせることで、ウェブページの情報を検索したり、クリックしたり、データを抽出したりすることを可能にします。

特徴
- ウェブ要素の抽出と操作: Browser Useは、ボタン、リンク、フォームなどのウェブ要素を自動的に認識し、操作することができます。これにより、ユーザーが手動で行う操作を自動化できる。
- 自動化機能: 複数のブラウザタブを同時に管理することができ、複雑なワークフローを効率的に自動化できる。例えば、特定の情報を収集するために複数のサイトを同時に訪問することが可能。
- カスタムアクションの追加: ユーザーが独自のアクションを定義できるため、データをファイルに保存したり、データベースに書き込んだりすることができる。
実際のユースケース
- データ収集: 複数のECサイトから特定の商品価格を取得するなど、情報収集を自動化できる。
- フォーム入力の自動化: ウェブフォームに自動でデータを入力し、送信することができる。
- 情報の比較: 異なるウェブサイトからの情報を比較し、最適な選択肢を提示することが可能。

参考

noteでも情報発信中

noteではより広く「AI時代の人生戦略」「男磨き」という領域でDoberというブランド名で発信しています。私個人の人生戦略や進捗、Threadsで伸びたコンテンツの深掘りなどを行っているのでぜひチェックいただけると！

最新情報はXやThreadsで発信しているので、そちらもフォローしてもらえると嬉しいです！刻式垢でフォローいただければ発信されている方はフォロバします！仲良くしてください！

今年使ってよかったツールTop5。

予算がない貧乏サラリーマンによるものです。
o1 Proは使ったことないですし、Replit以外の開発AIツールはちょっと使ったのもあるけど課金はしてないです。

そんな前提でのTop5が以下。

1. Notion
2. Claude
3. Perpleixity
4. Replit
5. Google AI Studio… pic.twitter.com/2k2tvNx5mx
— 刻式 (@lifeoptimizer7) December 27, 2024

この記事が気に入ったら
フォローしてね！

Follow @lifeoptimizer7

よかったらシェアしてね！

この記事を書いた人

Life Optimizer

思考と実践の記録 | AI、生産性、事業、読書 | 2026年1月起業予定

15分でざっくり概要をつかめるAIエージェント入門