生成AIの主要プレイヤーが注目している「プロンプトキャッシング」という技術を使えば、長文処理にかかるコストを90%、応答開始までの時間を85%短縮できる可能性がある。
この記事は会員限定です。会員登録すると全てご覧いただけます。
AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。
大規模言語モデル(LLM)の処理時間を最大60倍短縮し、コストを90%削減する技術「プロンプトキャッシング」について、AnthropicやGoogle、OpenAIが次々に実装に関する内容を発表しています。今回は、本技術について詳細を記したAnthropicの記事と、コンセプトを発表したイエール大学のプレプリント論文を紹介します。
多くの企業がAIチャットbotや社内文書の分析などでLLMの活用を進めています。しかし、往々にして以下のような課題に直面しています。
これを、頻繁に使用されるコンテキスト情報をAPI呼び出し間でキャッシュ(一時保存)することで解決するのがプロンプトキャッシングです。LLMへの入力(プロンプト)に頻繁に表れる共通部分を再利用することで処理効率を劇的に改善します。
具体的な効果としては以下が挙げられます。
コスト効率の大幅な改善で、これまで採算面から実施をためらわれていたAIプロジェクトの実現可能性が高まります。特に大規模なAI活用を検討している企業にとって、コスト最適化の新たな選択肢として注目に値するでしょう。
プロンプトキャッシングはイエール大学の研究チームが2023年11月に、LLMの処理速度を大幅に向上させる新技術として開発しました。頻繁に使用されるプロンプトセグメント(複数の文)の再利用により余計な計算や重複する処理をなくし、計算効率を最適化します。これらは高速化による精度や品質の低下を防止し、モデルパラメータの変更を必要としない設計となっています。
具体的な手法としては「入力プロンプトに重複するテキストセグメントが存在する」という観察に基づき、アテンション状態を再利用する手法を提案しています。プロンプトの構造を明示的に定義し、再利用可能なセグメントを「プロンプトモジュール」として管理しています。そして一依存性の問題を解決する新しいエンコーディング手法の開発をしました。
プロンプトキャッシングはAnthropicの試算ではLLMの処理時間を最大60倍短縮し、コストを90%削減する革新的技術です。企業のAI活用における最大の課題である「コストと速度のトレードオフ」を解決する突破口として期待されており、OpenAIやGoogle、Anthropicといった主要プレイヤーが相次いで類似機能の提供を発表するなど、次世代のAI活用基盤として注目を集めています。
プロンプトキャッシングがもたらす新たな可能性の一つとして、コンテキスト処理の革新的な可能性が挙げられます。文書全体の文脈を考慮したより精度の高い要約生成が可能になったり、これまでコスト面で断念していた高度な文脈理解処理が実用的になったり、また文書チャンク(部分)ごとの個別処理から、文書全体を考慮した統合的な処理が可能なると考えられます。
データ分析の新手法としても、より効率的なデータのETL(抽出・変換・ロード)処理やナレッジグラフ構築のための高精度な情報抽出、そして文書内の任意の部分に対する柔軟な質問応答が可能になる有用性があります。
生成AIシステム構築時の実用面でのメリットとしても文書全体からの直接的な情報アクセスができる他、より自然な対話型インターフェースの実現や大規模文書処理における精度と効率の両立も可能になるでしょう。
Copyright © ITmedia, Inc. All Rights Reserved.