RAG(Retrieval-Augmented Generation) とは、日本語で「検索拡張生成」と訳される。LLM(大規模言語モデル)が回答を生成する前に、外部の知識源から関連情報を検索して、その情報を踏まえて回答する仕組みである。
業務AIの実装では、ほぼ標準的なアーキテクチャとなっており、2026年現在は基本的な「ベクトル検索 → LLM 生成」のシンプル構成から、Hybrid Search + Rerank の本番パターン、GraphRAG、Agentic RAG といった派生形まで多様化している。
なぜRAGが必要なのか
LLM単体には、業務AIで致命的な弱点が3つある。
- 学習データのカットオフ: モデルは学習時点までの情報しか知らない。最新情報や社内固有情報は持っていない
- ハルシネーション: 知らない情報について「もっともらしい嘘」を生成しがち
- 社内データの不在: ChatGPT が自社の業務マニュアル・顧客データ・過去の議事録を知っているわけではない
RAGはこの3つを構造的に解決する。**「LLMに毎回、関連する社内ドキュメントを参照させてから回答させる」**ことで、最新性・正確性・固有性を担保する。
ハルシネーション対策の全体論はAIハルシネーション対策の実装論近日公開で詳述している。
RAGの基本的な仕組み
RAGは大きく以下の流れで動く。
ユーザー質問
↓
[1] 質問を埋め込みベクトルに変換
↓
[2] ベクトルDBで類似度の高い文書を検索(Top-K)
↓
[3] 検索された文書を「コンテキスト」としてLLMに渡す
↓
[4] LLMがコンテキストを参照して回答生成
↓
ユーザーへ回答
ステップ[2]の「ベクトル検索」では、Pinecone、Weaviate、Qdrant、ChromaDB、PostgreSQL(pgvector拡張)などが使われる。Embedding モデルは OpenAI text-embedding-3、Cohere embed-v3、BGE、Voyage AI 等が選択肢となる。
2026年の本番RAGアーキテクチャ
シンプルな「Embed → 検索 → LLM」だけでは本番の精度要件を満たさないケースが多い。2026年の本番運用では以下のパターンが標準となっている。
Hybrid Search + Rerank パターン
質問
↓
[1] Hybrid Search(ベクトル検索 + キーワード検索 BM25)
↓ Top 50候補を取得
[2] Reranker でTop 5に再順位付け
↓
[3] LLM に渡して回答生成
Hybrid Search は、意味的類似性(ベクトル)と語彙的一致(BM25)の両方を活用することで単独のベクトル検索より高精度。Reranker は Cohere Rerank、BGE Reranker 等が使われ、検索品質を 15-30% 向上させると報告されている。
2026年の標準スタック
業界のベストプラクティスは以下の組み合わせに収束しつつある。
- オーケストレーション: LangGraph
- 検索: LlamaIndex Workflows
- 評価: Ragas + Phoenix + Langfuse
- ベクトルDB: Pinecone / Weaviate / Qdrant
- Embedding: OpenAI text-embedding-3 / Voyage / Cohere
技術選定の論点は業務AIインフラの技術選定近日公開で詳しく扱っている。
GraphRAGとAgentic RAG — 2026年の発展形
GraphRAG(グラフRAG)
エンティティ間の関係性が重要な知識ベースでは、ベクトル検索だけでは「複数のエンティティを横断する推論」が苦手。GraphRAG は知識グラフ(Knowledge Graph)をベクトルインデックスと並行して構築し、グラフ上のトラバーサル(探索)でコンテキストを拡張する。
LinkedIn の GraphRAG 導入事例では、複数の関連エンティティをまたぐ推論が必要な問い合わせで、サポート解決時間が標準RAGより28.6%短縮された。Gartner は GraphRAG を2026年のデータ・アナリティクスの主要トレンドの一つに挙げている。
Agentic RAG(エージェント型RAG)
LLM 自身が検索プロセスを制御する形態。複数のクエリを発行し、部分的結果を統合し、コンテキストが十分かを判断する。
トレードオフとして、Agentic RAG は通常RAGの3〜10倍のトークンコスト、2〜5倍のレイテンシがかかる。マルチホップ質問、曖昧なクエリ、高リスク領域(法務・医療・金融)でこのコストを正当化する価値がある。Vectara の見立てでは、複雑な Agentic RAG ワークフローは2026〜2027年に主流化する。
AIエージェントの基本概念はAIエージェントとはで別途整理している。
典型的なユースケース
業務でRAGがフィットする領域:
- 社内ナレッジ検索: 過去のFAQ、業務マニュアル、議事録から関連情報を引いて回答する
- カスタマーサポート: 製品ドキュメント・サポート履歴を踏まえた問い合わせ対応(顧客接点業務のAI活用ガイド近日公開も参照)
- 法務・コンプライアンス: 社内規程、契約書、判例から該当条文を引きつつ回答
- 営業支援: 過去の商談記録、顧客資料、競合情報を引きつつ提案を作成
- エンジニアリング支援: 自社コードベース・設計ドキュメントを参照したコード生成
- 金融機関の応対: 商品説明、規制対応、顧客対応での出典明示型応答(金融機関のAI活用近日公開)
- 医療機関の文書作成: 電子カルテ参照型の所見書・退院サマリー生成(医療機関のAI活用近日公開)
RAG評価フレームワーク: RAGAS
RAGの品質を測定する代表的フレームワーク RAGAS(RAG Assessment) は、4つの主要指標で評価する。
| 指標 | 内容 | 本番目標値 |
|---|---|---|
| Faithfulness | 生成回答が検索コンテキストに忠実か(ハルシネーションがないか) | > 0.9 |
| Answer Relevancy | 回答が質問に的確に答えているか | > 0.85 |
| Context Precision | 検索された文書が質問に関連しているか | > 0.8 |
| Context Recall | 必要な情報が検索結果に含まれているか | > 0.8 |
これらのスコアは、生成側と検索側を分離して問題を診断できる点が特徴。Context Precision/Recall が低ければ検索改善(チャンク分割、Reranker追加等)、Faithfulness が低ければプロンプト設計の見直し、というように対処が明確になる。
評価フレームの設計論全般はAI評価フレームの実装論近日公開を参照されたい。
RAGの典型的な落とし穴
業務RAGで初心者がハマる代表パターン:
落とし穴1 / そのままドキュメントを突っ込む
PDFやWord文書をそのままベクトルDBに入れると、表・図・脚注の構造が壊れて検索精度が出ない。前処理(チャンク分割、構造化、メタデータ付与)が成果の80%を決める。チャンクサイズの最適値はドキュメント特性で異なり、256〜1024トークンの範囲で実験する。Late Chunking、Semantic Chunking、Hierarchical Chunking 等の手法が選択肢となる。
落とし穴2 / 検索精度を測定していない
「LLMがそれっぽく答えている」と「検索が正しい文書を引いている」は別問題。検索段階の精度(Precision、Recall)を独立に評価する仕組み(RAGAS等)が必要。
落とし穴3 / 文書更新に追従できない
社内文書は常に更新される。インデックスの再構築・差分更新の仕組みを最初から設計しないと、半年後には古い情報を返す RAG になる。CDC(Change Data Capture)パターンでの差分更新、定期 reindexing の運用設計が必要。
落とし穴4 / Rerank を入れていない
ベクトル検索の Top-K(例 Top 50)をそのまま LLM に渡すと、ノイズが多く回答精度が下がる。Reranker で Top 5 に絞ることで品質が大きく改善する。
落とし穴5 / Hybrid Search を入れていない
ベクトル検索だけでは「固有名詞」「型番」「正確な用語」の検索が苦手。BM25 等のキーワード検索を併用する Hybrid Search が必須。
落とし穴6 / コスト管理の甘さ
Embedding コスト、Reranker コスト、LLM 生成コストの合計が予算を超えやすい。クエリ数 × Top-K × トークン数のコスト構造を初期から設計する。
長文コンテキストモデル vs RAG
Claude 4.6(1M トークン)、Gemini 2.5(2M トークン)など、超長文コンテキストモデルの登場で「もう RAG いらないのでは」という議論が起きている。実務的には以下の整理が定着しつつある。
- 長文コンテキスト: 1回のクエリで参照する文書が固定で、かつ毎回同じ範囲を参照する場合に有効。プロンプトキャッシングと組み合わせれば実コストも下がる
- RAG: 大規模文書群から関連箇所のみを抽出する場合、文書更新が頻繁な場合、出典明示が必要な場合に依然として優位
両者は補完関係であり、ハイブリッド構成が現実解。
Fine-tuningとの違い
RAGとFine-tuningはしばしば対比される。両者は補完関係にある。
| 観点 | RAG | Fine-tuning |
|---|---|---|
| 目的 | 「知識」を与える | 「振る舞い」を変える |
| データ更新 | 容易(DBを更新するだけ) | モデル再学習が必要 |
| 初期コスト | 低 | 高 |
| 出典明示 | 可能 | 困難 |
| 適用シーン | 社内データを参照させる | 特定の言い回し・出力形式を学ばせる |
2026年の推奨アプローチは「Prompt → RAG → Fine-tune → Distill」の順で試すこと。多くのケースで RAG だけで業務要件を満たす。Fine-tuning を組み合わせるのは「特定の出力形式」「ドメイン固有の言い回し」を厳密に守らせたい場合に限られる。詳細はFine-tuning vs RAGを参照。
まとめ
RAGは、業務AIの「LLMが社内のことを知らない」問題を解決する標準アーキテクチャである。実装そのものは現代のフレームワーク(LangGraph、LlamaIndex Workflows 等)で難しくないが、前処理・評価・更新運用の設計で成果が大きく変わる。
2026年の業務 RAG プロジェクトでは、以下を意識すべきである。
- シンプルな構成から始めて、必要に応じて Hybrid Search、Rerank、GraphRAG、Agentic RAG へ拡張する段階的アプローチ
- RAGAS 等で検索品質と回答品質を独立に評価する仕組み
- 文書更新・運用のサイクルを最初から設計
- コスト構造の継続モニタリング
FDE型コンサル等のAI支援を選ぶ際の枠組みはAX支援サービスの選び方、AI導入の意思決定全般はFDE型コンサルティング完全解説、PoC脱出論はAI PoC止まり脱出フレームワークで扱っている。
関連記事:
- Fine-tuning vs RAG: 使い分けの指針
- AIエージェントとは
- AI評価フレームの実装論近日公開
- AIハルシネーション対策の実装論近日公開
- 業務AIインフラの技術選定近日公開
- FDE型コンサルティング完全解説