Juliusとは
Juliusとは、オープンソースの機械学習済みの音響モデルを搭載した汎用大語彙連続音声認識エンジンである。Juliusは、京都大学、名古屋工業大学が中心になって開発を行っている。プログラムはC言語で書かれており、オープンライセンスで商用利用への制限もない。2019年10月現在の最新バージョンは4.5である。
Juliusの特徴
Juliusの最大の特徴は可搬性であり、単語辞書や言語モデル・音響モデルなどの音声認識に必要なモジュールを組み替えることで、小規模の音声対話システムからディクテーションまで様々な幅広い用途に応用できる。また、数万語彙の連続音声認識を一般のPCやスマートフォン上でリアルタイムに実行できる軽量かつコンパクトさも特徴の1つである。
音声認識処理でのJuliusの役割
音声認識におけるJuliusの役割は、「音響モデルと言語モデルをもとに、それっぽい文章を見つける」というものである。
音声認識とは、入力音声信号に対して「最もそれっぽい文字列」を求めること、と言うことができる。一般的に音声認識では、大雑把に次のような処理を行う。
- 音声データから音の特徴を取り出し、これをローマ字のような音素で表現する
(同じ音でも複数候補があればそれだけ取り出す) - 辞書の情報から、音素の繋がりからどんな単語を話しているかを推定する
ここで、前者の処理を行うモデルを「音響モデル」、後者で利用する辞書の情報を「言語モデル」という。
Juliusは、音響モデルによって抽出された音素の並びから、言語モデルの情報を使って何を話しているかを推定するソフトウェアである。音響モデル、言語モデルは別途準備する必要があるが、それゆえ種々の音響モデル、言語モデルと組み合わせることで、目的に見合ったシステムを構築することができる。音響モデルでは機械学習済みの音響モデルも利用することができる。
Juliusのスタータキット
音声認識は、初心者には難解な処理だが、これを手軽に利用できるようなスタータキットが公開されている。音声を入力すると認識した文章を出力してくれる一連のシステムがキット化されており、Linux、Windows、MacOS用のビルド済み実行ファイルが同梱されている。それぞれのキットでは、機械学習済みの音響モデルと、対象に応じた言語モデルが内蔵されている。
- ディクテーションキット
音響モデルは、研究用に公開されているコーパスによって学習されている。ガウス混合分布モデル(GMM-HMM)と、深層ニューラルネットワーク(DNN-HMM)の音響モデルが収録されており、それぞれを利用することができる。言語モデルには、約6万語の辞書が収録されている。
- 話し言葉モデルキット
話し言葉による音声認識を目的としたモデル。音響モデルは、研究用に公開されているコーパスによって学習されたDNN-HMMが利用できる。言語モデルは、「日本語話し言葉コーパス」の模擬講演データと学会データから作成されている。
- 講演音声モデルキット
大きな部屋での講演を対象としたモデル。音響モデルは、「日本語話し言葉コーパス」の学会データによるDNN-HMMが利用できる。言語モデルは、「日本語話し言葉コーパス」の模擬講演データと学会データから作成されている。
デージーネットの取り組み
デージーネットでは、Juliusを利用して、機械学習やAIと組み合わせたシステムや音声認識の応用に関する研究・開発を行っている。
【カテゴリ】:ビッグデータ  AI  
【Webセミナー】今さら聞けない!システム監視の基礎攻略セミナー
日程: | 1月30日(木)Webセミナー「BigBlueButton」を使用します。 |
内容: | 多くのシステムで導入されている監視ツール、でも監視って具体的に何?何で必要なの?そんな疑問を解消します。 |
ご興味のあるかたはぜひご参加ください。 |