音声ファイルから議事録を自動作成する方法【録音データ対応】

「会議は録音したのに、議事録にする手間は何も変わっていない」——そう感じているビジネスパーソンは多い。

Teams・Zoomなどオンラインツールにはトランスクリプトをそのままコピーできる仕組みが整いつつある。しかし、スマートフォンで録音した対面会議の音声ファイル、電話会議を録音したMP3、ICレコーダーのWAVデータ——こうしたケースは依然として手動の文字起こしに頼っていることが多い。

本記事では、これらの音声ファイルをAIを使って議事録に自動変換する具体的なフローを解説する。「音声→テキスト（文字起こし）」と「テキスト→構造化議事録」の2段階で処理することで、録音データからでも会議の内容を素早く文書化できる。

対面会議・電話会議の録音データを議事録にするニーズとは？

オンライン会議が普及した一方で、対面会議・電話会議の録音データが議事録化されないまま放置されているケースは依然として多い。なぜこのニーズが生まれるのか、背景から整理する。

テキストデータが残らない会議は今もある

Microsoft TeamsやZoomにはトランスクリプト機能が実装されているが、これが利用できるのはオンライン会議に限られる。現実の業務では、以下のような場面でテキスト化されない音声データが発生し続けている。

会議形態	録音デバイスの例	テキストデータが残らない理由
対面会議・打ち合わせ	スマートフォン、ICレコーダー	会議ツールのトランスクリプト機能が使えない
電話・固定電話会議	通話録音機能、外部レコーダー	プラットフォームに文字起こし機能がない
訪問商談・ヒアリング	スマートフォンアプリ	相手先の環境でツール制約がある
現場・工場・屋外での確認	ICレコーダー、スマートフォン	オフライン環境でツール接続ができない

こうした場面で蓄積された録音データを、人間が最初から聴き直して文字起こしするプロセスには、通常「再生時間×1.5〜2倍」の時間がかかる。1時間の会議録音を議事録にするだけで、90分から2時間が消費されるのが実態だ。

「録音はしてある」が「議事録はない」状態の問題

録音データは残っているが議事録が作成されない状態は、情報共有の観点から複数の問題を引き起こす。

第一に、検索性がない。録音ファイルは後から特定の発言を探すことが困難だ。「あの会議でどういう決定をしたか」を確認するには全体を聴き直すしかない。

第二に、共有できない。録音ファイルをそのまま関係者に送ることは情報漏洩のリスクを伴う。決定事項と担当者名が記載された議事録テキストとは、情報の粒度が根本的に異なる。

第三に、責任の所在が曖昧になる。「録音があるから大丈夫」は、アクションアイテムの担当と期日が明示された議事録の代替にはならない。

こうした課題を解消するのが、音声ファイルをAIで議事録に自動変換するワークフローだ。

録音データ対応の重要性が高まる場面

営業チームが顧客との電話商談を録音して議事録化する、法務・コンプライアンス部門が重要会議を記録するといった用途では、録音データからの議事録生成の需要が明確に存在する。特に、対面営業が多い業種（建設・製造・不動産・医療系など）では、オフラインで録音した音声データを文書化するニーズが継続的に発生している。

音声→文字起こし→議事録の2段階AI変換フロー

録音データから議事録を生成するプロセスは、2つのステージに分けて考えると整理しやすい。

ステージ	処理内容	担うAI技術
Stage 1	音声ファイル → テキスト（文字起こし）	音声認識AI（Whisper等）
Stage 2	テキスト → 構造化議事録	大規模言語モデル（LLM）

2段階に分けることには実用上の理由がある。音声認識AIとLLMは得意分野が異なり、1段階で全処理をするより2段階の方が精度が高く、各ステージでの修正も容易だ。

Stage 1: 音声ファイルをテキストに変換する

Stage 1では、録音された音声データを文字情報に変換する。この処理を担うのが**音声認識AI（Speech-to-Text）**だ。

主な音声認識ソリューション

2025年時点での実務利用において最も実績があるのは、OpenAIが開発した音声認識モデル「Whisper」系統のエンジンだ。

ソリューション	特徴	用途
OpenAI Whisper API	MP3/MP4/WAV/WebM等に対応・25MB制限	スポット利用・開発向け
Azure AI Speech（Whisper統合）	最大1GBまで対応・バッチ処理可能	大容量・エンタープライズ向け
Notta	アップロード即時文字起こし・日本語高精度	ビジネスユーザー向けSaaS
AutoMemo	Whisperベース・1時間→5分で処理	日本語特化のSaaS

Whisper（large-v3モデル）の日本語認識精度は**WER（単語誤り率）4.9〜6.4%**で、裏返せば93.6〜95.1%の精度を達成している（Fleursデータセットによる評価）。静かな環境での録音であれば、さらに高い精度が期待できる。

Stage 1の操作手順（Whisper APIを使う場合）

音声ファイルを用意する（MP3/WAV/WebM等・25MB以内）
OpenAI APIキーを取得し、音声ファイルをアップロード
model: "whisper-1" および language: "ja" を指定してAPIリクエストを送信
レスポンスとして発言テキストが返ってくる

ファイルサイズが25MBを超える場合は、後述の「対応フォーマットと制限」に記載の方法で対処する。

テキスト変換後に確認すべき点

Stage 1の出力は「生のテキスト」であり、話者の識別が行われないケースや、固有名詞・専門用語の誤認識が含まれることがある。Stage 2へ進む前に以下を確認・修正しておくと、議事録の質が大幅に向上する。

誤認識している固有名詞・人名・社名の修正
話者が複数の場合、「Aさん：」「Bさん：」のような形式で話者ラベルを追記（話者識別機能を持つツールなら自動対応）
明らかな音声認識エラー（「会議を再開します」が「会議を最後します」になっているなど）の修正

この修正は全文精読ではなく、固有名詞を中心とした部分的な確認で十分だ。

Stage 2: テキストを構造化された議事録にする

Stage 2では、Stage 1で生成されたテキストを、会議の議事録として機能する構造化ドキュメントに変換する。この処理にはGPT-4系のLLMが適している。

MinutoはこのStage 2に特化したサービスだ。テキストを貼り付けるだけで、以下のような構造化議事録を30秒以内に生成する。

【会議概要】
○月○日 ○○会議（参加者：田中、鈴木、山田）

【決定事項】
・[具体的な決定内容]

【アクションアイテム】
・[担当者名]：[タスク内容]（期日：○月○日）

【議論のポイント】
・[主要な論点・検討内容]

【次回会議】
・[日程・議題]

Stage 2の操作手順（Minutoを使う場合）

Stage 1で生成されたテキストをコピー
Minuto（https://minuto.genbacompass.com）にログイン
「新規作成」→テキスト入力エリアに貼り付ける
「議事録を生成」をクリック
30秒以内に構造化議事録が出力される

音声ファイルから直接取り込む形式ではなく、Stage 1でテキスト化されたデータを貼り付ける形式だ。これにより、どの音声認識エンジンで変換したテキストでも、Minutoで一貫した出力品質が得られる。

2段階処理の全体像はトランスクリプトとは何か？会議の文字起こしデータを活用するでも詳しく解説している。

対応フォーマット（MP3/MP4/WAV/WebM等）と制限

実務で最もよく問われるのが「手持ちの音声ファイルで使えるか」という確認だ。対応フォーマットと制限を整理する。

主要フォーマットの対応状況

フォーマット	用途・特徴	Whisper API対応	備考
MP3	最も一般的な圧縮音声形式	○	スマートフォン録音・ボイスレコーダー等
MP4	動画コンテナ（音声トラック含む）	○	Zoom・Teams録画ファイル等
WAV	非圧縮高品質音声	○	ICレコーダー・業務用機器
WebM	ブラウザ標準動画形式	○	Meet・Teamsのブラウザ録画
M4A	Apple/iPhoneの録音形式	○	iPhoneボイスメモ等
MPEG/MPGA	MPEG音声コンテナ	○	一部録音機器
FLAC	可逆圧縮音声	非対応	変換ツールでMP3/WAVに変換が必要
AAC	標準圧縮形式	非対応	変換ツールでM4Aに変換が必要

Whisper APIはMP3・MP4・WAV・WebM・M4A・MPEG・MPGAの7形式に対応している。FLACやAACは直接対応していないため、変換が必要だ。ただし、多くの文字起こしSaaSはより広範なフォーマットに対応しているため、SaaS経由での利用を検討するとよい。

ファイルサイズ制限

ソリューション	サイズ上限	超えた場合の対処
OpenAI Whisper API	25MB	分割処理またはAzure Speech APIへの切り替え
Azure AI Speech（バッチ）	1GB	大容量ファイルはこちらを利用
Notta（SaaS）	1GB	ブラウザ上でアップロード可能
AutoMemo（SaaS）	サービス規約による	1時間以内の音声が基本

25MBの目安：

MP3（128kbps）：約27分
MP3（64kbps）：約54分
WAV（16bit/44.1kHz）：約3〜4分
M4A（128kbps）：約30分

WAVは非圧縮のためファイルサイズが非常に大きい。WAVで録音した長時間音声は、いったんMP3に変換してからAPIに渡すか、Azure Speech APIのバッチ処理を利用することを推奨する。

25MBを超えるファイルの処理方法

1時間以上の長い会議録音でWhisper APIの25MB制限に引っかかる場合、以下の方法で対処できる。

方法A：ファイルをチャンク分割する

FFmpegや各種音声編集ソフトで音声ファイルを10〜15分単位に分割し、それぞれをAPIに送信する。その後、返ってきたテキストを順番に結合して1つのトランスクリプトにまとめる。

方法B：ビットレートを下げてサイズを圧縮する

音声の明瞭さを優先しない場合、ビットレートを32〜64kbpsに落とすことでファイルサイズを大幅に削減できる。議事録用途では低ビットレートでも認識精度への影響は限定的だ。

方法C：Azure Speech APIのバッチ処理を利用する

最大1GBまで対応するAzure AIのバッチ文字起こしAPIを使えば、数時間の録音データも1ファイルで処理できる。ただし、処理完了まで数十分かかることがある。

方法D：Notta等の対応SaaSを利用する

API直接利用のハードルが高い場合は、1GBまで対応しているNottaなどのSaaSに音声ファイルをアップロードし、出力されたテキストをStage 2（Minuto）に貼り付ける方法がシンプルで実用的だ。

📝 Minutoを無料で試す

テキストを貼り付けるだけで、AIが議事録を30秒で仕上げます。 Freeプランは月5回まで無料。クレジットカード不要。

👉 今すぐ試す

精度と処理時間の目安

実際の業務に組み込む前に、精度と処理時間のイメージを持っておくことは重要だ。以下は2025年時点の実測値と公表データに基づく目安である。

文字起こし精度（Stage 1）

録音環境	精度の目安	留意点
静かな室内・クリアな音声	95〜98%	マイク品質が精度に直結する
会議室（複数話者・多少のノイズ）	90〜95%	話者が重なる場面で精度低下
屋外・ノイズあり環境	75〜88%	事前ノイズリダクション処理を推奨
電話録音（帯域制限あり）	85〜92%	低サンプリングレートによる精度影響

Whisper large-v3モデルの日本語WER（単語誤り率）は公式評価で**4.9〜6.4%**と報告されており、静かな環境での議事録用途では実務的に十分な精度といえる。ただし、専門用語・業界固有名詞・英語混じりの発言には誤認識が発生しやすいため、Stage 2に進む前のテキスト確認が推奨される。

議事録化の精度（Stage 2）

Stage 2のLLM変換は、Stage 1で得られたテキストの品質に依存する。テキストの精度が90%以上であれば、決定事項・アクションアイテムの抽出精度は実務上許容範囲に入ることが多い。

注意点として、AIは「話されたこと」をすべて拾うが、「会議で合意されたこと」と「単なる意見・仮定話」の区別は文脈依存度が高い。生成後の確認ステップを省略しないことが、出力品質の担保につながる。

処理時間の目安

音声の長さ	Stage 1（文字起こし）	Stage 2（議事録生成）	合計
10分	約10〜20秒	約30秒	約1分以内
30分	約30〜60秒	約30秒	約2分以内
60分	約60〜120秒	約45秒	約3分以内
2時間	約3〜5分	約60秒	約6分以内

Whisper Turboモデルを使用した場合、従来のlarge-v3比で約3.2倍の処理速度が報告されており、5分の音声を約40秒で処理できる。処理時間は音声の長さに概ね比例するため、長時間録音でも実用的な速度で処理できる。

AI議事録ツール全体の比較についてはAI議事録ツール5社を徹底比較【価格・精度・セキュリティ】も参考にしてほしい。

まとめ

録音データから議事録を自動作成するフローを2段階に分けて解説した。要点を整理する。

2段階変換フローの全体像：

Stage 1（音声→テキスト）：Whisper APIやNotta等の音声認識AIで録音データを文字起こしする。対応フォーマットはMP3/MP4/WAV/WebM/M4A等。ファイルサイズは通常25MB（SaaS利用なら最大1GB）まで対応。
Stage 2（テキスト→議事録）：Stage 1で得たテキストをMinutoに貼り付け、AIが決定事項・アクションアイテム・議論ポイントを30秒で構造化する。

処理精度と実務判断のポイント：

静かな環境での録音なら文字起こし精度は93〜98%と実用水準
専門用語・固有名詞はStage 1後に確認・修正してからStage 2へ渡す
Stage 2の出力後も、アクションアイテムの担当者名と期日を中心に最終確認する

フォーマット・制限への対処：

WAVは非圧縮のためサイズが大きく、MP3への変換またはSaaS利用を推奨
25MB超の長時間録音は、チャンク分割・ビットレート圧縮・Azure Speech API・対応SaaSのいずれかで対処できる

対面会議・電話会議の録音データを活用できるようになることで、「トランスクリプトが使えない会議」にも同等の議事録作成効率がもたらされる。オンライン・オフライン問わず録音データがあれば議事録を自動化できる体制は、チーム全体の会議後処理コストを大幅に削減する。

Teamsのトランスクリプト活用を含む議事録自動化の全体像についてはTeams会議の議事録を自動作成する方法も参照してほしい。

📝 Minutoを無料で試す

テキストを貼り付けるだけで、AIが議事録を30秒で仕上げます。 Freeプランは月5回まで無料。クレジットカード不要。

👉 今すぐ試す

よくある質問

Q. スマートフォンで録音した対面会議の音声でも使えるか？

スマートフォンのボイスメモやレコーダーアプリで録音したファイル（主にM4AまたはMP3形式）はWhisper APIの対応フォーマットに含まれるため、そのまま使用できる。iPhoneのボイスメモはM4A、AndroidはMP3またはAACで保存されることが多い。AACはWhisper APIが非対応のため、その場合はNotta等の対応SaaSを経由するか、MP3に変換してから使用する。録音品質は指向性マイクを使うほど文字起こし精度が上がるため、重要な会議では外部マイクの併用を検討するとよい。

Q. 電話会議（固定電話・スマートフォン通話）の録音も議事録にできるか？

電話通話の録音は帯域が制限されているため、広帯域音声と比べると文字起こし精度がやや低下する傾向がある（目安として85〜92%程度）。それでも実務に耐えうる精度は確保できる場合がほとんどだ。通話録音機能のある電話機やスマートフォンアプリを使って録音し、MP3またはM4Aで出力されたファイルをStage 1に渡すだけで処理できる。専門用語の多い業種（法律・医療・金融等）では、Stage 1後のテキスト確認を丁寧に行うことを推奨する。

Q. 2時間を超える長時間の会議録音にも対応しているか？

対応している。ただし、Whisper APIの25MB制限に注意が必要だ。2時間のMP3（128kbps）は約110MBになるため、15〜20分単位に分割してAPIに送る、またはAzure AI Speech（最大1GB対応）やNotta等の大容量対応SaaSを利用する方法を取る。SaaSを使えば分割処理は不要で、ファイルをそのままアップロードするだけで全文テキストが出力される。長時間録音の場合はSaaS経由が最も手軽で実用的だ。

Q. 複数人が発言している場合、誰の発言かを区別して議事録に反映できるか？

話者識別（ダイアライゼーション）機能を持つツールを使えば、「話者A：〜〜〜」「話者B：〜〜〜」という形で発言者を区別したテキストが出力される。Notta、rev.ai等は話者識別機能を搭載している。ただし、氏名まで自動的に特定することは一般的に難しく、識別結果の発言者ラベルに手動で名前を対応させる作業が必要になることが多い。話者ラベル付きのテキストをStage 2（議事録生成）に渡すと、アクションアイテムの担当者識別精度が向上するため、複数人の会議録音では話者識別対応ツールの使用を推奨する。

業務効率化に役立つ関連サービス

Minutoを提供するGenbaCompassでは、業務効率化を支援する他のサービスも展開している。

サービス名	概要	こんな課題に
WhyTrace	AIなぜなぜ分析ツール	不具合・トラブルの根本原因分析
AnzenAI	AI安全管理支援	建設現場の安全教育・KY活動
SysDoc	AIマニュアル作成	業務手順書・マニュアルの整備