Software Overview

音声テキスト変換

Voice → Text Converter

しゃべった言葉をリアルタイムでテキスト化、または音声ファイルをアップロードしてテキストに変換できるブラウザ完結型ツールです。 APIキー不要・インストール不要。単一の HTML ファイルで即座に動作します。

形式

HTML 単一ファイル

APIキー

不要

データ送信

なし（完全ローカル）

推奨ブラウザ

Chrome / Edge

01 — 主な機能

2つの音声入力モード

🎙

マイク入力モード

PCに接続されたマイクから音声をリアルタイムで認識し、話しながら即座にテキストとして表示します。ブラウザ標準の Web Speech API を使用するため、モデルのダウンロードは不要です。

リアルタイム認識モデル不要ワンクリック開始

📁

ファイル読込モード

マイクのない環境でも、音声ファイルをドロップするだけでテキスト変換できます。OpenAI Whisper モデルをブラウザ内で直接実行するため、音声データは外部に一切送信されません。

ローカル処理 MP3 / WAV / M4A D&D対応

対応言語

02 — 認識精度

モデル	サイズ	処理速度	特徴・推奨用途
whisper-tiny	約 80 MB	最速	動作確認・英語向き。誤認識が多め
whisper-baseDEFAULT	約 150 MB	速い	速度と精度のバランスが良い。日常的な用途に最適
whisper-small	約 500 MB	やや遅い	日本語など非英語で特に高精度。精度を重視する場合に推奨

※ モデルは初回変換時に自動ダウンロード。2回目以降はブラウザキャッシュから読み込みます。

03 — 使い方

🎙 マイク入力

1 「マイク入力」タブを選択する

2 認識言語をプルダウンから選ぶ

3 マイクボタン（🎙）をクリック。ブラウザからマイク許可を求めるダイアログが表示されたら「許可」する

4 話すと変換結果エリアにリアルタイムでテキストが表示される

5 停止ボタン（⏹）をクリックして終了。「コピー」ボタンでテキストをクリップボードにコピーできる

📁 ファイル読込

1 「ファイル読込」タブを選択する

2 使用モデルと認識言語を選択する

3 音声ファイルをドロップするか、エリアをクリックしてファイルを選択する

4 「▶ テキストに変換」ボタンをクリックする

5 初回はモデルのダウンロード後、変換結果が表示される（処理はPC上で完結）

04 — 技術仕様

マイク音声認識	Web Speech API（ブラウザ標準機能）
ファイル音声認識	Transformers.js + OpenAI Whisper（ONNX形式）
モデル配信元	Hugging Face（huggingface.co）— 初回のみ通信
音声デコード	Web Audio API（AudioContext、16kHz リサンプリング）
外部ライブラリ	@huggingface/transformers v3（CDN経由）
推奨ブラウザ	Google Chrome 最新版 / Microsoft Edge 最新版
対応ファイル形式	MP3 / WAV / M4A / OGG / WebM（ブラウザが対応する音声形式すべて）

05 — 注意事項

ℹ️ マイク入力には、ブラウザからマイク使用の許可が必要です。初回起動時に許可ダイアログが表示されます。
ℹ️ ファイル変換はすべてお使いのPC上で処理されます。音声データは外部サーバーに送信されません。
⚠️ ファイル変換の初回のみ、インターネット接続が必要です（Whisper モデルのダウンロード）。モデル変更時も再ダウンロードが必要です。
⚠️ PCのスペックによっては、ファイル変換に数十秒かかる場合があります。特に whisper-small は処理時間が長めになります。
📌 Firefox および Safari では一部機能が動作しない場合があります。Google Chrome または Microsoft Edge のご使用を推奨します。
📌 変換精度は音質・話し方・背景ノイズの影響を受けます。静かな環境での録音・クリアな音声ファイルをご使用ください。