分享
20240414-Grok-1.5 视觉预览
输入“/”快速插入内容
20240414-Grok-1.5 视觉预览
2024年4月14日创建
首次推出我们的多模态模型,实现数字世界与物理世界的无缝连接。
介绍 Grok-1.5V,我们推出的首款多模态模型。Grok 不仅拥有出色的文本处理能力,还能分析包括文档、图表、图示、屏幕截图和照片在内的广泛视觉信息。Grok-1.5V 即将向我们的早期测试者及现有用户开放。
能力展示
在多个领域,Grok-1.5V 与当前领先的多模态模型不相上下,涵盖从多学科推理到理解文档、科学图示、图表、屏幕截图及照片等。我们对 Grok 在解读物理世界方面的卓越能力感到格外激动。在我们新开发的 RealWorldQA 真实世界空间理解基准测试中,Grok 的表现超越了其它同类模型。对于所有这些数据集,我们都采用了零样本 (zero-shot) 方法进行评估,且未使用思维链提示。
案例1:根据图表写代码
用户:你能把这个翻译成 Python 代码吗?
Grok:可以的!你提供的流程图描述了一个计算机生成随机数的简单猜数字游戏,玩家需要猜出这个数字。以下是根据流程图逻辑编写的 Python 代码:
代码块
Python
import random
23
def guess_number():
# Generate a random number between 1 and 10
45
target = random.randint(1, 10)
67
while True:
8
guess = int(input("Guess a number between 1 and 10: "))
910
if guess == target:
11
print("You won!")
12
break
13
else:
14
print("Wrong guess, try again!")
1516
if __name__ == "__main__":
17
guess_number()