ソフトウェア解説ドキュメント

PDF
Word
変換ツール

PDFファイルに埋め込まれたテキストをブラウザ内で完全に抽出し、Microsoft Word形式(.docx)に変換するWebアプリケーションです。外部サーバーへのファイル送信は一切行いません。

HTML5 CSS3 JavaScript PDF.js v3.11 Open XML

このツールは何ができるのか

PDFドキュメントをWordファイルへ変換する作業を、インターネット接続さえあれば誰でも・どこでも・無料で行えるようにしたツールです。

従来のPDF→Word変換サービスはファイルを外部サーバーにアップロードする方式が主流でしたが、このツールはすべての処理をブラウザ上のJavaScriptエンジンで完結させます。機密性の高い文書でも安心して利用できます。

PDFからのテキスト抽出にはMozilla開発のPDF.jsライブラリ(CDN経由)を使用し、抽出したテキストからOpen XML仕様に準拠した.docxファイルをその場で生成します。生成されたファイルはMicrosoft Word、LibreOffice、Google Docsなど主要なオフィスソフトで開けます。

ファイルサイズ上限は50MBで、ページ数の制限はありません。変換処理中はリアルタイムのプログレスバーと処理ログで進捗を確認できます。

仕様一覧

入力形式.pdf
出力形式.docx (OOXML)
最大ファイルサイズ50 MB
ページ数制限なし
サーバー送信なし(完全ローカル)
ネット接続初回読込時のみ必要
対応ブラウザChrome / Firefox / Edge / Safari
料金完全無料

変換プロセス — 4つのステップ

STEP 01 📂
ファイル受け取り

ドラッグ&ドロップまたはファイル選択でPDFを受け取ります。File APIでArrayBufferとして読み込み、形式とサイズを検証します。

STEP 02 🔍
PDFパース

PDF.jsがPDFの内部構造を解析。各ページのテキストオブジェクト(文字列・位置情報)を取り出します。

STEP 03 ✍️
テキスト再構築

Y座標でテキストを並び替え、行・段落に再構成します。「シンプル」「段落分け」の2モードから選べます。

STEP 04 📦
DOCX生成

Open XML仕様に従いdocument.xmlを構築。ZIPアーカイブに梱包してBlobオブジェクトとして出力、ダウンロードリンクを生成します。

主な機能

ツールの特長

🔒
プライバシー保護

ファイルはブラウザ外に一切出ません。外部APIへの通信なし。社外秘・個人情報含む文書でも安全に利用できます。

高速処理

ネットワーク転送なしのローカル処理のため、ファイルサイズに比例した速度で変換が完了。10ページのPDFなら数秒以内。

🌏
日本語対応

日本語テキストを含むPDFに対応。UTF-8での出力を基本とし、Shift-JIS環境向けの設定も選択できます。

📐
2種のレイアウト

「シンプル(改行のみ)」は行単位で忠実に出力。「段落分け」はY座標の近似で行をグループ化し、読みやすい段落構造を生成します。

📊
リアルタイムログ

変換中はページごとの進捗をログで確認可能。プログレスバーとテキストラベルで全体の進行状況も一目でわかります。

📄
スタイル付きDOCX

見出し1(ファイル名)・見出し2(ページ番号)・本文の3スタイルを持つ構造化Wordファイルを出力。ページ区切りも自動挿入。


技術スタック

使用技術・ライブラリ

PDF.js v3.11.174 — Mozilla

PDFの解析・レンダリングのためのオープンソースライブラリ。getTextContent()でテキストオブジェクトを取得します。CDNから読み込みます。

Open XML (OOXML) ISO/IEC 29500 準拠

Microsoftが策定したOfficeドキュメント標準仕様。document.xml・styles.xml・_rels等をゼロから生成し、ZIPに梱包します。

ZIP Builder 独自実装 (Pure JS)

外部ライブラリなしでLocalFileHeader・CentralDirectory・EOCD構造を手動構築。CRC-32計算も自前実装しています。

File API Web標準 — W3C

FileReader / ArrayBuffer経由でローカルファイルをブラウザ内に読み込みます。ドラッグ&ドロップはDataTransfer APIを使用。

Blob / URL API Web標準 — W3C

生成したDOCXバイナリをBlobオブジェクトとしてメモリ上に保持し、URL.createObjectURLでダウンロードリンクを動的生成します。

TextEncoder API Web標準 — WHATWG

XMLテキストをUTF-8バイト列に変換してZIPファイル内に格納するために使用します。Uint8Array操作と組み合わせています。

できること・できないこと

非対応
スキャン画像PDF

紙をスキャンしてPDF化したファイル(テキスト非埋め込み)はテキスト抽出ができません。このようなPDFにはOCR処理が別途必要です。

非対応
画像・図表の再現

PDF内の画像、グラフ、表組みは出力Wordファイルには含まれません。テキストコンテンツのみが対象です。

制限あり
複雑なレイアウト

2カラム・回り込みテキスト・テキストボックスなど複雑なレイアウトは、テキストの読み取り順が変わることがあります。

対応
テキスト埋め込みPDF

Word・InDesign・LaTeX等から出力したテキスト埋め込みPDFは問題なく変換できます。日本語フォント埋め込みも対応しています。

対応
大容量ファイル

50MBまでのファイルに対応。数百ページのレポートや書籍PDFも変換できます。処理はページごとに非同期で行われます。

対応
パスワードなしPDF

パスワード保護のないPDFファイルに対応。パスワード付きPDFは事前にパスワードを解除してからご利用ください。