谷歌的 Gemini 2.0 强到不行?谈谈我的体验及感受
谷歌的 Gemini 2.0 强到不行?谈谈我的体验及感受
谷歌发布的 Gemini 2.0 引起许多人的关注,它的表现到底如何,本文我来谈谈我使用谷歌 Gemini 2.0 的真实感受以及体验。
语音对话体验
使用 Gemini 2.0 进行英文对话,非常地丝滑,你可以跟使用 ChatGPT 的高级语音一样,随意地去打断,并且响应速度也很快,很快就可以给出回答。看来 Gemini 2.0 可以完全代替 ChatGPT 高级语音进行英语口语对话练习的角色了。
视频实时输入功能
视频实时输入也是另一个非常有用的功能。真正实现了结对编程,或者像找一个一对一的老师来实时指导的感觉。其实我觉得这个功能与编程指导相比较,对于一些操作类的东西,或者其他场景更加有用,毕竟编程是需要更多的代码上下文才能有更多的理解,而屏幕截图可能只是部分内容。
应用场景展望
比如针对可以开发一款眼镜,接入 Gemini,给盲人使用,实时进行看到的画面解说,并且可以通过语音进行对话更加细节的内容询问。实现现实世界中Netflix 电影旁白的功能,应该会极大的提高盲人的幸福指数吧。
当然应该也有更多的场景,比如作为普通人的日常生活助理,随时对看到的和听到的内容进行更加细致地交流。
开发者资源
目前甚至创建了一个 github 项目,包含代码以及具体的一些实例,包括:
- 视频分析器:可以总结、描述场景,还可以提取文本搜索对象等
- 空间理解:可以根据照片,结合 2D 和 3D 的空间分析进行推理,指出物体、文本的位置
- 地图探索者:Gemini 可以结合 Google Maps API 探索更多有趣的地方
许多人通过使用谷歌的 Python 代码示例,也做出了很多有趣的功能。
总结
应该用不了多久,会有更多更加有趣的基于 Gemini 的实际应用发布,也有更多的实际应用场景来改变我们的生活吧。