「ChatGPT」をはじめとする生成系AIの話題が、毎日ニュースになっていますね。私も「Midjourney」という画像生成サービスを利用して、表現の可能性を追求しています。昨年こちらのコラムで画像生成の実験をしたときに比べると、格段に高品質の、ほぼ写真のような画像が作り出せるようになりました。
画像生成の話の続編は、次回以降にゆずりまして、今日は音声の話です。ラジオやポッドキャストは、ネットでの配信が広まっていて、以前からのラジオファンはもちろんのこと、新しいリスナー層の開拓も進んでいるかと思います。ただ、音声のネット配信の弱点は、見つけにくいこと。新しく聞きたい番組は、番組名や出演者名から発見するというのがほとんどでしょう。有名タレントの番組以外は、聞きたい内容で検索しても、番組名・チャンネル名にはっきり書かれていなければ、ネット検索ではなかなか見つかりません。
この点を新たに解決しようというサービスが、2023年6月にリリースされた、ポッドキャストを自動で文字起こしする「LISTEN」です。LISTEN https://listen.style/
*ポッドキャストを自動で文字起こしする「LISTEN」が正式サービス開始 – Impress Watch
LISTENは、ChatGPTで知られるOpenAIの「Whisper」を利用し、登録したポッドキャストの音声を自動でテキスト化、自動文字起こしをしてくれます。文字起こしされたテキストは、ポッドキャストの音声と連動しているので、クリックした文字列部分から再生が可能です。また、話の内容を要約して自動で見出しをつけてチャプター分けし、全体の要約文も作ってくれます。複数人で話している場合には、話している人を自動的に識別することもできます。つまりラジオ番組のコーナーの音声から、見出しと要約のついた「対談ページ」のようなものを簡単に作ることができます。
もちろん音声から認識していますので、漢字の間違いは多いのですが、手動で修正をかけたとしても、ラジオ番組やポッドキャストの紹介ページを簡単に作ることができるでしょう。
ChatGPTに関連して、動画でも似たようなサービスがあります。たとえばウェブブラウザのGoogleChromeに追加する拡張機能として「YouTube Summary with
ChatGPT」があります。この機能を追加すると、YouTubeで視聴している画面に、文字起こしボタンが出てきて、LISTENと同じように文字起こしされたデータが出てきます。また横についているChatGPTのアイコンを押すと、この文字情報をChatGPTで要約してくれます。動画によってはうまく動かないものもありますが、一方で多言語に対応していて、さらにChatGPTが翻訳もしてくれます。長めの動画の内容をさっと把握するのにも役立ちます(ただし長すぎるものは対応しないようです)し、英語など外国語にも対応してくれますので、動画による情報収集の質が変わってくるかと思います。
文章をAI音声が読み上げるサービスは、すでにニュース原稿を読む機能がテレビラジオの番組で利用され始めています。最近は、noteというサービスに記述したブログ記事を、ポッドキャストのAI読み上げサービスで音声化する機能もスタートしました。
*noteの記事URLから、AIが読み上げた音声コンテンツをかんたんに作成できるようになりました。「stand.fm」(スタンドエフエム)【公式】https://stand.fm/
音声と文字、さらには映像。人により状況により、理解しやすい/理解できる形式があります。これらを自由に使い分けられる世界が近づいているようです。誰にでも使いやすく、理解しやすい形式を、より簡単に作れるよう、社会と技術が進んでいくことが期待されます。
* BSNラジオ 土曜日午前10時「立石勇生 SUNNY SIDE」の オープニングナンバーの後に「はぐくむコラム」をお伝えしています。
7月8日は、新潟市在住 敬和学園大学人文学部国際文化学科教授の一戸信哉さんです。お楽しみに!