最近はAI技術が発達してきたこともあって、会議の議事録やインタビュー記事の執筆、さらには動画コンテンツの字幕作成などで「音声データを手軽にかつ正確にテキスト化したい!」というニーズが高まっています。
そんな中、AIで有名なOpenAIが開発した音声認識モデル「Whisper」の文字起こし精度が高いということで注目を集めているようです。
本記事ではそんな注目の音声認識モデル「Whisper」で文字起こしする方法を解説していきます。
文字起こしの精度で悩んでいた方は、ぜひ本記事を参考にしてWhisperを使いこなせるようにしてみましょう。
All-in-one ツールボックス:動画/音声/画像変換、動画/音声ダウンロード、動画編集、録画、圧縮.....すべてできる!

Part1.音声認識モデル「Whisper」の詳細
まずはWhisperがピンと来ていない人に向けて「Whisper」とはなんなのか、文字起こしの精度はどれくらいかなどの詳細を解説します。
そもそもWhisperとは?
Whisperとは、ChatGPTの開発元としても知られる米国のAI研究企業OpenAIによって開発された、高性能なオープンソースの音声認識モデルです。
従来の文字起こし技術と比較して、格段に高い精度で音声をテキストに変換できる能力を持っています。
使用するバージョン(後述)によっては日本語特有のアクセントや専門用語も認識してくれるので、ただの文字起こしソフトとは一線を画すと言ってもいいでしょう。
オープンソースで誰でも無償で利用できるので、ビジネスの現場から個人利用まで幅広く使用されています。
Whisperの文字起こしの精度は?
Whisperの文字起こしの精度は、日本語においても非常に高いと言われています。
文脈を理解して自然な漢字変換などもおこない、専門用語の認識や自動での句読点の挿入、フィラーワード(えー、あのー、など)の除去まで自然におこなってくれます。
複数人が専門用語を話す会議であっても高精度な文字起こしが可能なので、これまで使用してきた文字起こしツールとは比較にならない高いレベルだと言えます。
Whisperの5つのモデルとは
Whisperには、文字起こしの処理速度と精度に応じてユーザーが最適なモデルを選択できるよう、5つのモデルが提供されています。
本項目では「tiny」「base」「small」「medium」「large」の5つのモデルの性能と特徴を解説します。
tinyモデルの性能と特徴
「tiny」モデルは、5つのモデルの中で最も軽量かつ高速に動作することを最大の特徴とするモデルです。
手軽にWhisperの機能を試してみたい方や、処理速度を重視するユーザーに適しています。
その分精度は他モデルに比べて低いため、メモ代わりに残した簡単なボイスメッセージの文字起こしなど、そこまで精度を求めない簡単な文字起こしに活用することをおすすめします。
baseモデルの性能と特徴
「base」モデルは、最も軽量な「tiny」モデルから一歩進んで、より実用的な文字起こし精度と処理速度のバランスを実現したモデルです。
「tiny」では少し物足りないけれど、そこまで高いマシンパワーは用意できないという場合におすすめのモデルとも言えます。
具体的には、処理速度を重視した「tiny」モデルから文脈の理解力が向上しており、長文になる日本語でもある程度の意味を推測しながらの文字起こしが可能になります。
まだ「base」モデルでは複数人の音声が入った会議の文字起こしを自然におこなう処理能力はありませんが、1対1のインタビュー音声の文字起こしなどであれば問題なくおこなえるでしょう。
smallモデルの性能と特徴
「small」モデルは5段階のモデルの中で中間に位置し、「base」モデルからもう一段階文字起こしの精度を高めた実用性の高いモデルです。
「small」モデルは「base」モデルより多様な話し方、アクセントの読み取り、背景雑音に対する耐性が向上しているので、日本語のニュアンスや文脈の理解度が深まり、句読点の挿入やフィラーワードの除去も自然におこなえます。
このあたりからはビジネス目的(議事録・顧客への提出物)でも使用できるレベルになるので、業務利用を考える方は最低限smallモデルからの使用を検討してみてください。
mediumモデルの性能と特徴
「medium」モデルは、非常に高い文字起こし精度を誇る高性能モデルです。
文字起こしの品質に妥協したくない、あるいは専門的な用途で利用したいユーザーにとって最適なモデルと言えるでしょう。
「medium」モデルは「small」モデルと比較して、より広範かつ複雑な音声データパターンを学習しているため、騒がしい環境下で録音された音声や複数の話者が入り混じる議論、専門用語が頻繁に登場するような難易度の高い音声データに対しても優れた認識精度を発揮します。
また句読点の自動挿入や文脈理解の精度も非常に高く、人間が書き起こしたかのような自然で完成度の高いテキスト出力が期待できるでしょう。
学術研究におけるインタビュー音声の文字起こしなど、専門分野が関連する音声の文字起こしがしたい方には「medium」モデルがおすすめです。
largeモデルの性能と特徴
「large」モデルは、提供されている5つのモデルの中で最大レベルの精度を誇るモデルです。
「強度の背景ノイズが入った音声」「かなり早口な音声」「複数人の意見が入り乱れる会議音声」でも高い精度での文字起こしがおこなえるので、PCのスペックに自信がある方は可能であればこのlargeモデルを使用することをおすすめします。
さらにlargeモデルには改良版のlarge-v2やlarge-v3も存在し、常に最新のAI技術の恩恵を受けられるモデルだと言えます。
ビジネスの現場で使用するのであればlargeモデル一択と言いたいところですが、その分largeモデルを満足に動かすには業務用のPCレベルが必要になるので注意しましょう。
Whisperの利用料金は?
Whisperの利用料金は、使用方法によって変わります。
基本的には「オープンソースとして公開されているモデルを自身でダウンロードして利用する場合」は無料であり、「OpenAIが提供するAPIサービスを通じて利用する場合」には有料となります。
APIを利用する場合でも1分当たり0.006ドルという良心的な価格なので、既に月額料金を払って文字起こしソフトを契約している人にとってはコスト削減につながるのではないでしょうか。
ちなみに本記事では、Google Colaboraoryを使用してWhisperを無料で使う方法を解説するので、とくに個人単位で利用したい人は次の項目をよく読み、自身でWhisperの設定をおこなってみましょう。
Part2.WhisperをGoogle Colaboratoryで使う手順
ここからは、WhisperをGoogle Colaboratoryを使用して無料で使えるようにする手順を解説します。
いくつか専門的な用語もでてきますが、基本的には書いてある通りに設定すれば使えるほど丁寧に解説していくので、スクリーンショットを確認しながら設定をおこなってください。
Step1.Google ColaboratoryでWhisperの環境設定をおこなう
Whisperを無料で使用する場合、まずは以下のステップでGoogle Colaboraoryの設定を完了させましょう。
1.Google Colabにアクセスし、新しいノートブックを開く
2.右上の「接続」をクリックして「RAMディスク」と表示されるまで待ち、その後「!pip install git+https://github.com/openai/whisper.git」のコードを貼り付け、再生マークをクリック
3.コードが表示されたら「+コード」をクリックし、一番下に現れる入力欄に「import whisper」を入力→再生マークをクリック
以上で環境構築は完了です。
Step2.「WAV」か「MP3」の音声ファイルを用意する
環境構築が完了したら、文字起こししたい音声ファイルを用意します。
ファイル形式としては「WAV」「MP3」が対応しているので、この形式でファイルを準備するか、WAVやMP3にデータを変換しましょう。
Step3.音声ファイルをアップロードし、文字起こしをおこなう
あとは左側のフォルダアイコンをクリック→「Content」の中に音声データをアップロードし、完了したら「+コード」をクリックします。
入力欄が表示されたら、以下のコードを入力してください。
model = whisper.load_model('base')
result = model.transcribe('ファイル名')
print(result['text'])
※model(‘’)の中には5種類のモデルから使用したいモデルを入力、transcribe('')の中にはファイル名を入力してください。
あとは再生アイコンをクリックすれば文字起こしが完了します。
Part3.Wondershare UniConverterなら、より簡単な手順で文字起こしが可能
「Whisperの設定が難しくてできない」
「もっと簡単に精度が高い文字起こしがしたい」
上記のような悩みを持っている方には、Wondershare UniConverterがおすすめです。

Wondershare UniConverterでは、自動字幕起こしやテキストから音声への変換などが簡単におこなえます。
Whisperの設定のような難しい手順は一切ないため、誰でも文字起こししたい音声データさえ持っていればすぐに文字起こしを始められます。
ほかにもデータの圧縮や形式変換などの機能が充実しているので、文字起こし以外でもあらゆるデータを扱う機会が多い人にはWondershare UniConverterの方がおすすめです。
対応OS |
Windows XP/ Vista / 7 / 8 / 8.1 / 10 / 11 macOS 10.10以降 |
特徴 |
|
UniConverterで文字起こしをおこなう手順
Step1.ホームから「音声をテキストに変換」をクリック

Step2.音声データをアップロード

Step3.「声の言葉」を日本語へ変更し、エクスポートをクリック

まとめ
本記事では、高精度なAI音声認識モデル「Whisper」の詳細から、Google Colaboratoryを活用した無料での利用手順を解説しました。
Whisperはモデルによってはかなり高度な文字起こしが可能なため、日本語でも十分な精度を求める方にとっては最適なツールとなるでしょう。
ある程度AIに関する知見がある方やプログラムが理解できる方はWhisperを、もし手順がよく分からない方はほぼ全自動で高性能な文字起こしができるUniConverterを使うことをおすすめします。
自分に最適な文字起こしツールを見つけ、業務効率を上げていきましょう。