高级语音被网友玩坏:声音真实到可怕,不仅能唱小星星,还会万国语言
出品|搜狐科技
作者|王一鸣
OpenAI最近推出了GPT-4o高级语音功能(AdvancedVoiceMode),网友纷纷发挥自己想象力,让ChatGPT“秀才艺”。
其实GPT-4o高级语音早在6月底就发布了测试版本alpha,但因为没有达到“发布标准”推迟了发布。
最开始,高级语音版本有一个叫“Sky”的声音与《Her》中斯嘉丽·约翰逊的声音非常相似,约翰逊曾经也向OpenAI提出了交涉,最终声音被撤下。而且OpenAI表示,他们已经让ChatGPT无法模仿其他任何人的声音,无论是个人还是公众人物,而且还会屏蔽与这些预设声音不同的输出。
虽然GPT-4o不是活的,但它是很能整活的
ChatGPT新的语音模式非常强大,它说话途中完全可以被打断,它还能用很多种方式讲故事、模仿、实时翻译等。
因为实在是太好玩了,网友们不停地整活,比如这位网友让GPT-4o学星球大战的Yoda和辛普森一家人,最后还混在一起学:
还能用中文讲故事,虽然发音还不太标准,而且“气”字读成了日语发音,其实还需要后期的训练才能逐渐地“地道”起来:
还可以跟GPT-4o“视频语音”聊天:
这也就是意味着你能够跟一个非常聪明而且很有知识的人在“视频通话”。
其实视频中的人的意思是一个梗:“猫做的事情只是它们想谋杀你的迹象”,用爪子按你只是来确定你内脏的弱点,高级语音被网友玩坏:声音真实到可怕,不仅能唱小星星,还会万国语言坐在你的笔记本上是为了破坏你跟外界的联系。而视频中,猫在厕所中不吃东西保持轻度饥饿是为了伏击做准备的。
ChatGPT,你会唱小星星吗?
虽然有些跑调,但是声音非常的真实,还配有喘气声。
挑战多国语言也不在话下,从英语→韩语→中文→法语→葡萄牙语→西班牙语→斯瓦希里语:
还能当僚机,帮你实时翻译外文游戏:
想象一下,如果你有个关卡不知道怎么过,通过让ChatGPT进行分析是不是就能直接要到游戏攻略?
预报天气的时候还能模拟环境声(风声、雷声和交通鸣笛声等)
播报天气预报都能够声情并茂,以后电视台在天气预报栏目可以多发挥一下想象力。
它讲睡前故事的时候可以用各种语气,甚至还可以像舞台剧一样唱出来讲:
这声音真实到可怕。
总体来说,每当说出一个问题的时候,ChatGPT通常需要几秒钟的响应时间,这可能跟算力或者网络有关,但已经比之前的版本快很多了。
“它不是文字转语音”
对于高级语音功能,来自沃顿商学院的副教授,同时也是《共同智能》的作者EthanMollick认为:
1.它的效果跟当时演示的效果都挺好的。
2.很显然它能够产生很多的音效,但是有很多的限制。
3.这就很奇怪,很多无意识线索(内容)就让人感觉对面是个真人。
Mollick教授认为虽然说底层模型他用了很久了,但这种语音改变了AI交互的性质。
同时在未来AI会变得更有人性化;如果你之前觉得对AI应该礼貌一些,那以后“礼貌”对待AI可能就是必须的了。
也就是说它能够感知情绪,今后很有可能会根据你说话的语气输出ChatGPT自己的情绪。
之前ChatGPT处理语音时需要把语音转化为文本,然后GPT语言模型理解并这些文本来得出答案,然后再用语音念出来。
现在的GPT-4o具有多模态能力,可以直接听懂音频,针对音频来做出回答。就相当于对方跟你聊天的时候,不需要把你说的话转化成文字思考一下再回答你一样,所以这种方式也降低了延时。