PDF・Word を AI 学習データに登録する前に
ファイルをそのまま入れる前に、AIが情報を取り出しやすくなるよう少しだけ整える
「登録できた」と「使える状態」は別物
PromnyAIのAI学習データは、PDF・TXT・Markdown・HTML・Word(.doc/.docx)に対応しています。ファイルを選んでアップロードすれば、形式上は「登録完了」になります。ただし、AIが必要な箇所を取り出せる状態になっているかは、ファイルの作りに大きく左右されます。
本記事では、登録前にやっておくと精度が上がる準備のコツをまとめました。すでに登録方法を知っている方が、次の一歩として読むことを想定しています。基本の操作はAI学習データの使い方を参照してください。
対応ファイルと容量
- PDF:テキストが埋め込まれているものに限り、内容を取り出せます。1ファイル最大32MB。
- Word(.doc/.docx):本文・見出し・箇条書きは取り出せます。複雑な図表は読み取れない場合があります。
- TXT・Markdown・HTML:もっとも安定して読み取れます。整理済みの社内ドキュメントはこの形式で出力できると理想的です。
- テキスト直接貼り付け:最大10MB。短いメモやFAQはファイルにせず、こちらが速い場合があります。
向くファイル/向かないファイル
同じPDFでも、AIから見て扱いやすいかどうかは中身の作りで変わります。
- 向く:WordやGoogleドキュメントからPDF出力したもの/プレーンテキストに近い構成/見出しが階層化されている資料
- 注意が要る:紙をスキャンしただけのPDF(画像PDF)/パワーポイントを画像書き出ししたPDF/チラシ・パンフレットなど装飾の多いレイアウト
- 向かない:手書きのスキャン/表だけで構成された資料/パスワード保護されたファイル
「画像PDFかテキストPDFか」の見分け方は簡単です。PDFを開いて本文をマウスで選択できればテキストPDF、選択できなければ画像PDFです。画像PDFはAIから本文が見えないため、OCR(文字起こし)してテキスト化してから登録します。
登録前の準備(5分でできる範囲)
- 表紙・目次・奥付など本文と関係ないページを外す
- 過去のヘッダー/フッターに古い日付や旧社名が残っていないか確認する
- 「※詳細は別紙」「→図1参照」のような他資料への参照は、必要に応じてテキストを補う
- 機密情報・個人情報・他社の権利物は登録範囲から外す
- ファイル名を「サービスA_料金表_2026春版.pdf」のように内容が分かる名前にする
完璧に整える必要はありません。「これがあるとAIが混乱しそう」と感じる部分だけ外せば十分です。
1ファイルの粒度の目安
1つの巨大なファイルにまとめるより、テーマごとに分割するほうがAIの取り出し精度は上がります。
- 分割すべき例:会社案内・サービス一覧・FAQが1冊にまとまった総合パンフレット → サービス単位/FAQ単位で別ファイルに
- そのままで良い例:1サービスの詳細案内が10〜20ページ/創業ストーリーが連続した1本の文章
迷ったら「目次の章ごとに1ファイル」が分かりやすい区切りになります。分割した1件あたりは、数千文字〜数万文字を上限の目安にしてください。
表・図・スクリーンショットの扱い
- 表:単純な料金表や仕様表ならWord・PDFのままでも取り出せます。複雑な結合セルや多階層のヘッダーがある場合は、テキストで書き直すと安定します。
- 画像:図やスクリーンショットそのものは学習データに使えません。図中の文字情報は本文中に書き起こしておきます。
- キャプション・注釈:図の下の説明文は本文の流れに溶け込ませて書き直すと、引用元として参照されやすくなります。
機密情報・社外秘の扱い
学習データに登録した情報は、PromnyAI内のAI生成で参照されます。社内資料をそのまま入れる前に、以下を確認してください。
- 個人情報・顧客名簿・契約書原本など、外部に出してはいけない情報は登録しない
- 他社の権利物(提案資料・契約済み素材など)は、登録の可否を契約や利用規約で確認する
- 社内向け資料は、社外公開してよい範囲だけを抽出して別ファイルにしてから登録する
登録後の確認
登録後は、一覧画面で「学習完了」になったことを確認してから使い始めます。学習に時間がかかる大きなファイルもあるので、すぐ反映されない場合は数分待ってください。
うまく内容が取り出せているかは、ハブで「このファイルに書いてあるサービスAの料金を要約して」のように質問すると確かめられます。期待した答えが返らない場合は、元のファイルが画像PDFになっていないか/関係ないページが混じっていないかを再点検します。
よくある質問
-
Q. 画像PDFをそのまま登録するとどうなりますか?
A. 登録自体は完了しますが、本文を取り出せないため学習データとして役に立ちません。OCRソフトや「PDFをWordに変換」機能でテキスト化してから登録し直してください。
-
Q. 同じ内容のファイルを更新するときは?
A. 古いほうを削除してから新しいファイルを登録するのが安全です。両方残しておくと、AIがどちらの情報を参照するか判断しにくくなります。
-
Q. パワーポイント資料を登録したい場合は?
A. パワーポイントは直接アップロードできません。PDF出力する際に「テキストを保持してエクスポート」を選び、テキストPDFとして書き出してから登録してください。スライド1枚ごとに細かく区切るより、章単位でまとめたほうがAIが文脈を把握しやすくなります。