ChatGPTに音声による会話、画像の認識の機能が追加されます！

ホーム
アプリ関連ニュース
AI
ChatGPTに音声による会話、画像の認識の機能が追加されます！

2023年9月28日
AI

ChatGPTに音声による会話、画像の認識の機能が追加されると、OpenAI公式ブログで発表がありました。
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

2週間後ぐらいから使用できるようになるようです。
対象は有料のPlusユーザーとEnterpriseユーザーに限定されるようで、音声による会話機能はAndroidとiOSのスマートフォンで使用可能、画像認識はすべてのプラットフォームで使用できます。

画像認識機能の使用用途として、公式から以下などが提案されています。
・旅行中に珍しい建物等の写真をとり、それについて会話する。
・冷蔵庫の中身を写真にとり、残り物を活用した晩ご飯のメニューについて会話する。
・数学の問題集を写真にとり、ヒントの共有や解法について会話する。

また音声アシスタント、音声入力による会話に対応することで、高齢者などテキスト入力が難しい人でもAIを活用できるようになり、AI利用の敷居が下がるようになると思われます。
音声認識はOpenAI社のWhisperが使用され、話された言葉をテキストに変換されます。また出力される音声はプロの5名の声優の声からお好みの声が選択可能です。5名の声が用意されています：

1)Juniper
女性の声、はきはきした印象

2)Sky
女性の声、落ち着いた印象

3)Cove
男性の声、落ち着いた印象

4)Ember
男性の声、はきはきした印象

5)Breeze
ピッチシフトで加工したような声

現状、サンプルでは英語のみですが、上記5名の実際の声を以下のURLから聞くことができます。
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

ChatGPTのキャラクター設定とAIとの会話例

ChatGPTは、設定したキャラクターを演じることができるので、架空のキャラクターと会話したり、介護施設などでの話し相手としても活用できそうです。

現状のChatGPTがどのぐらいのレベルの日常会話が可能かを試してみました。

ChatGPTにキャラクターを演じてもらうためのプロンプト例：

12歳の関西弁の男の子を演じてください。

上記のキャラクターのChatGPTと日常会話をおこなった例：

また同じプロンプトでもキャラクターの性格を指定することにより回答内容が変わります。
※違いをわかりやすくするために極端なキャラクター設定にしています。

プロンプト例：

12歳の関西弁の男の子を演じてください。性格は非協力的です。

プロンプト例：

90歳のおばあさんを演じてください。性格はおせっかいです。

これはテキストでChatGPTと日常会話をおこなった例です。
キャラクター設定として、弁護士、大学の教授、コールセンターのオペレーターなど、専門職を設定することで特定の分野のエキスパートと会話をおこなうことも可能です。
しかし現段階ではLMMのハルシネーション問題があり、嘘の情報をあたかも正確な情報のように返してくることもありますので使用者のほうで見極める能力も必要です。
ChatGPTの誤回答についてはプロンプトを工夫することで対処可能な場合もあります。対処方法の一例は、過去記事「OpenAI GPT API(9) ステップバイステップで考える」で紹介しています。
このような会話が設定したキャラクターにマッチした自然な音声で話すことができるようになれば、多くの場面で活用ができると思われます。

木曜日担当：nishida