他们认为多模态学习可能是未来的前沿,希望未来训练目标更全面,包括文本和其他感知信息,使模型更全面地理解人类文明。