オンプレRAGデモ：論文PDF・特許PDFを根拠（ページ）付きで要約（Llama 3.3 70B + mxbai-embed-large）¶

このページの狙い

回答＋根拠（PDF名＋ページ番号）をセットで出すことで、RAGを「作文」ではなく「業務ツール」として見せます。
今回は 質問を“対象PDFに固定”し、引用元を末尾に 箇条書きで固定表示することで、読み手が迷わない形に整えました。

何がすごい？（一言で）¶

「PDFを読んで答える」だけでなく、答えの横に『どのPDFの何ページが根拠か』を出せるところがポイントです。
これがあると「それっぽい説明」ではなく、あとから確認できる回答になります。

今回のデモで分かること： - 根拠つき回答：回答の最後に「PDF名＋ページ番号」が並ぶ（追跡できる） - 混ざりを防げる：質問ごとに対象PDFを固定して、別資料の情報が混ざりにくい - 学習なしで形になる：ファインチューニング無しでも、形式（根拠表示）を工夫すれば十分デモになる - 社内資料にもそのまま応用：論文/特許だけでなく、社内報告書・顧客仕様・検収資料でも同じやり方が使える

なぜオンプレ？（クラウドLLMが悪いわけではない）¶

クラウドLLM（ChatGPT/Geminiなど）が便利な場面も多いですが、RAGの対象が「社内PDF」になると、次の理由でオンプレが選ばれやすくなります。

社外に出しにくいPDFが多い
仕様書、報告書、顧客資料、社内研究ノートなどは外部送信できない/したくないことが多いです。
監査・契約の都合
「どのデータをどこへ送ったか」を説明できないと運用に乗らないケースがあります。
インターネットに出られない環境（社内ネットワークだけ）でも動かしたい
工場・研究所・セキュリティ区画など、外部通信が制限される環境があります。
“毎回手で伏せ字”が現実的でない
毎日の運用では、マスク作業がボトルネックになります。

オンプレRAGなら、PDFを外に出さずに「検索→根拠付き回答」まで完結できます。
（もちろん、クラウド利用が問題ない組織ではクラウドでもOKです。その場合でも、オンプレは“外部通信に依存しない”運用支援として価値があります。）

今回のデモ構成（ファインチューニング無し）¶

生成モデル：Llama 3.3 70B（Ollama）
埋め込みモデル：mxbai-embed-large（Ollama）
ベクタDB：SQLite（ローカル）
PDF：論文/技術資料/特許PDF（計5本）

デモ結果1：WIPOレポート（根拠ページ付き）¶

質問：WIPOレポートについて：このレポートの目的と結論を3行で。根拠ページ付きで。

WIPOレポートの目的は、GenAI技術の特許状況と応用分野を分析することである。
レポートでは、GenAI技術のさまざまな応用分野、たとえば農業や生命科学などが検討される。
さらに、実際の利用例や将来的な展開についても触れられている。
GenAI技術の特許状況を分析するために、WIPOレポートでは様々なモデルの接続や応用分野を検討している（p.5）。
レポートでは、GenAI技術の応用分野を、農業、生命科学、交通など多岐にわたるものとしている（p.19）。
また、実際の利用例や将来的な展開についても言及されており、2023年のMetaによるLlama 2のリリースやAxel SpringerとOpenAIとの協定などが紹介されている（p.17）。

引用元（固定表示） - wipo_genai_patent_landscape.pdf p.5 - wipo_genai_patent_landscape.pdf p.18 - wipo_genai_patent_landscape.pdf p.7 - wipo_genai_patent_landscape.pdf p.4 - wipo_genai_patent_landscape.pdf p.29 - wipo_genai_patent_landscape.pdf p.19 - wipo_genai_patent_landscape.pdf p.17 - wipo_genai_patent_landscape.pdf p.28

デモ結果2：vLLM論文（根拠ページ付き）¶

質問：vLLM論文について：PagedAttentionが解決する課題を箇条書きで。根拠ページ付きで。

結論：PagedAttentionは、メモリの課題に対処するために設計された注目アルゴリズムである。複雑なデコーディングシナリオを効率的に処理し、メモリの共有を可能にする。
根拠に基づく説明：
メモリの課題に対処するためにPagedAttentionが導入されている（p.5）。
複雑なデコーディングシナリオを効率的に処理し、メモリの共有を可能にする（p.6）。
並列サンプリング、ビーム検索、プレフィックス共有などの複雑なデコーディングアルゴリズムを実現する（p.9）。
メモリの共有を可能にするために、論理ブロックを物理ブロックに変換する共通マッピング層が使用されている（p.8）。

引用元（固定表示） - vllm_pagedattention_2023.pdf p.9 - vllm_pagedattention_2023.pdf p.6 - vllm_pagedattention_2023.pdf p.5 - vllm_pagedattention_2023.pdf p.1 - vllm_pagedattention_2023.pdf p.8

デモ結果3：RAG論文（根拠ページ付き）¶

質問：RAG論文について：RAGの定義と狙いを3行で。根拠ページ付きで。

RAG（Retrieval-Augmented Generation）は、文書検索とテキスト生成を組み合わせた手法で、質問に対して関連する文書を検索し、その上で回答を生成します。RAGの狙いは、より正確で具体的な回答を生成することです。RAGには、RAG-TokenとRAG-Sequenceの2つのバージョンがあります。
根拠に基づく説明：
RAGは、文書検索とテキスト生成を組み合わせた手法であり、質問に対して関連する文書を検索し、その上で回答を生成します（[rag_lewis_2020.pdf p.3]）。
RAGの狙いは、より正確で具体的な回答を生成することです。実験結果から、RAGはBM25やDPRなどの既存手法よりも高い性能を達成していることがわかります（[rag_lewis_2020.pdf p.8]）。
RAGには、RAG-TokenとRAG-Sequenceの2つのバージョンがあります。両者の違いは、文書検索の方法と回答生成の方法にあります（[rag_lewis_2020.pdf p.3]）。

引用元（固定表示） - rag_lewis_2020.pdf p.17 - rag_lewis_2020.pdf p.3 - rag_lewis_2020.pdf p.7 - rag_lewis_2020.pdf p.8 - rag_lewis_2020.pdf p.5

読み手が迷わないための工夫（今回の改善点）¶

質問を「WIPOレポートについて」のように 対象を明示
検索も 対象PDFに固定（混ざりを防ぐ）
回答末尾に 引用元（PDF名＋ページ）を箇条書きで固定表示

PoC（オンプレ）相談¶

あなたの社内PDF/論文/特許を使って、オンプレで - 取り込み（マスク/アクセス制御含む） - 根拠（ページ）付き回答 - 複数PDFの比較まで含めた短期PoCが可能です。

相談フォームへ