Skip to content

多模态大模型

模态是指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的 媒介,有语音、视频、文字等;多种多样的传感器,如温度、湿度、压力等。

多模态即是从多个模态表达或感知事物。多模态可归类为同质性的模态,例如从两台相机中分别拍摄的图片,异质性的模态,例如图片与文本语言的关系。