リクエストが処理される仕組み
Box AIエンドポイントにリクエストを送信すると、Boxがモデルのインフラストラクチャを自動的に処理します。リクエストは以下の段階を経て処理されます。- ファイルの取得: Boxは、指定された
items配列からファイルコンテンツを読み取ります。contentパラメータ (省略可) を含めると、ファイルに保存されているコンテンツではなく、そのテキストが主な入力として使用されます。 - レプリゼンテーションの生成: テキストベースのファイルの場合、Boxはドキュメントをテキストレプリゼンテーションに変換します。画像の場合、Boxはサポートされるエンドポイントで自動的にOCRを適用します。
- モデルのルーティング: Boxは、そのエンドポイントおよびモードに対応したデフォルトモデルにリクエストをルーティングします。これは
ai_agentパラメータを使用して上書きできます。 - レスポンスの生成: LLMがプロンプトに従ってファイルコンテンツを処理し、結果を返します。長文ドキュメントの場合、Boxはトークンのウィンドウ処理を行います (
long_text構成では、埋め込みデータを使用してコンテンツをチャンクに分割します)。
Box AIはマルチモーダルリクエストをサポートしません。同じリクエストで画像とテキストの両方を送信した場合、テキストのみが処理されます。
入力制限
以下の制限は、Box AIのすべてのエンドポイントに適用されます。ほとんどの場合、以下の制限値を超過してもエラーは発生しません。制限値になるよう切り捨てられ、可能な範囲で処理が行われます。テキストとプロンプトの制限
| 制約 | 上限値 |
|---|---|
| プロンプトの長さ | 10,000文字 |
単一ファイルのテキストレプリゼンテーション (single_item_qa) | 2 MBのテキスト。2 MBを超過した分は切り捨てられます。 |
複数のファイル (multiple_item_qa) | 最大25ファイル |
(text_gen) の項目配列 | 1ファイルのみ |
extractおよびextract_structuredの項目配列 | 1ファイルのみ |
画像の制限
| 制約 | 上限値 |
|---|---|
| 解像度 | 1024 x 1024ピクセル |
| 1リクエストあたりの画像数またはページ数の上限 | 5。これを超えた場合、最初の5つのみ処理されます。 |
OCRおよびファイル形式のサポート
OCRは、すべてのエンドポイントで利用できるわけではありません。| エンドポイント | OCR | サポートされているファイル形式 |
|---|---|---|
POST /ai/text_gen | いいえ | テキストベースのファイル |
POST /ai/extract | いいえ | テキストベースのファイル |
POST /ai/extract_structured | ○ (自動) | PDF、TIFF、PNG、JPEG |
言語のサポート
Box AIは、英語、日本語、フランス語、スペイン語など、多くの言語で使用できます。ただし、基になるモデルは、主に英語でトレーニングされているため、他の言語でプロンプトを入力した場合、結果の品質が低下する可能性があります。extract_structuredエンドポイントは、以下の複数言語を明示的にサポートしています。
- 英語、日本語、中国語、韓国語
- キリル文字ベースの言語 (ロシア語、ウクライナ語、ブルガリア語、セルビア語)
ai_agent上書きシステム
Box AIエンドポイントPOST /ai/ask、POST /ai/text_gen、POST /ai/extract、POST /ai/extract_structuredでは、オプションのai_agentパラメータを指定して、デフォルトのモデル構成を上書きすることができます。この方法によって、実行するLLM、その動作、およびLLMに与える指示を制御できます。
上書きを使用するタイミング
- モデルバージョンの固定: Boxでは、デフォルトのモデルが定期的に更新されます。ダウンストリームプロセスで出力の整合性が求められる場合は、特定のモデルを固定することで、予期せぬ変更を防ぐことができます。
- モデルの切り替え: モデルによって得られる結果は異なります。にある任意のモデルに切り替えることで、ユースケースに合わせて最適化できます。
- プロンプトのカスタマイズ:
prompt_templateおよびsystem_messageパラメータを使用すると、アプリケーションコードを変更することなく、LLMの動作を制御できます。 - 創造性の調整:
temperatureや他のllm_endpoint_paramsを調整して、出力の確定性と創造性の度合いを制御します。
仕組み
構成を変更する
必要なフィールド (
model、prompt_template、system_message、llm_endpoint_params、またはnum_tokens_for_completion) を変更します。他のフィールドは変更しないでください。エンドポイントごとの構成構造
ai_agentオブジェクトの構造は、エンドポイントごとに異なります。これは、各エンドポイントでコンテンツの処理方法が異なるためです。
| エンドポイント | エージェントの種類 | 構成キー |
|---|---|---|
POST /ai/ask | ai_agent_ask | basic_text, basic_text_multi, long_text, long_text_multi |
POST /ai/text_gen | ai_agent_text_gen | basic_gen |
POST /ai/extract | ai_agent_extract | basic_text, long_text |
POST /ai/extract_structured | ai_agent_extract_structured | basic_text, long_text |
askエンドポイントは単一項目モードと複数項目モードの両方、および短いドキュメントと長いドキュメントの両方を処理するため、4つの構成キーがあります。multiple_item_qaモードを使用する場合は、_multiバリアントが適用されます。
long_text構成の場合、Boxは埋め込みモデルを使用してコンテンツをチャンクに分割します。埋め込みモデルとチャンク化戦略を、上書きの一部として構成できます。
プロバイダごとのLLMパラメータの違い
llm_endpoint_paramsオプションは、モデルプロバイダによって異なります。
| プロバイダ | パラメータの種類 | 主な違い |
|---|---|---|
openai_params | temperatureまたはtop_pを使用し、両方を使用しない | |
google_params | temperatureは、top_pおよびtop_kと連携する | |
aws_params | Googleと同様に、temperatureはtop_pおよびtop_kと連携する |
モデルのバージョン管理
Boxでは、各AIエージェントの構成スナップショットを最低12か月間は保証しており、新バージョンがリリースされた際には6か月の移行期間が設けられています。デフォルトモデルの変更内容は、に掲載されます。サービスの中断を防ぐため、上書きを使用してエージェントの構成を特定のモデルバージョンに固定してください。 詳細については、を参照してください。Box AI for UI Elements
統合により、質問回答機能がアプリケーション内のコンテンツプレビューに直接組み込まれます。これにより、エンドユーザーはUIを離れることなくBox AIを操作できるようになります。[ユーザーアクティビティ] レポート
[ユーザーアクティビティ] レポートでは、Box AIとのやり取りが追跡されます。Box管理者は、以下の操作の種類で絞り込むことができます。| 操作の種類 | 説明 |
|---|---|
| AIクエリ | ユーザーがBox AIに対してクエリを実行し、レスポンスを受け取った |
| AIクエリの失敗 | ユーザーがBox AIに対してクエリを実行したが、レスポンスがなかった |
このセクションのガイド
チュートリアル
質問、テキストの生成、抽出、モデルの上書きといったエンドポイントごとのステップバイステップ形式のガイド。
モデルの上書き
デフォルトのモデル、プロンプト、LLMパラメータを上書きします。デフォルトの構成リファレンスとバージョン管理ポリシーも含まれています。
サポートされているモデル
すべてのコアモデルおよび顧客希望で有効化できるモデルのリスト。機能レベル、コンプライアンスバッジ、API名が含まれます。
クイックスタート
Python SDKのチュートリアルに従って、要約と抽出を数分間で実行してみましょう。
Box AIの実際の動作をご確認ください
これらのエンドツーエンドのチュートリアルでは、Box AIを他のプラットフォーム機能と組み合わせて、本番環境に対応した自動化を構築する方法を紹介します。請求書の取り込み自動化
Box AI Extractとメタデータを活用して買掛金処理を自動化します。すべての請求書から仕入先、合計金額、日付を抽出できます。
営業用RFP回答集
Box HubsでAI搭載のナレッジベースを構築し、営業担当者が承認済みの提案書を自然言語で照会できるようにします。
