-
使用语言让机器人更好地掌握开放世界
想象一下,您正在国外拜访一位朋友,您查看了他们的冰箱,看看有什么可以做一顿丰盛的早餐。许多物品一开始对您来说都是陌生的,每一件物品都装在不熟悉的包装和容器中。尽管存在这些视觉上的区别,您还是开始了解每一种的用途,并根据需要选择它们。受人类处理不熟悉物体的能力的启发,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一个团队设计了机器人操纵特征场 (F3RM),这是一个将 2D 图像与基础模型特征混合到 3D 场景中的系统,以帮助机器人识别并抓住附近的物品。F3RM可以...
作者:airobotnews 日期:2023.11.16 分类:人工智能 1040 -
Zero123++:从单张图像推理出多个视图模型
Zero123++,这是一种图像条件扩散模型,用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验,我们开发了各种条件和训练方案,以最大限度地减少现成图像扩散模型(例如稳定扩散)的微调工作。Zero123++ 擅长从单个图像生成高质量、一致的多视图图像,克服纹理退化和几何错位等常见问题。此外,我们展示了在 Zero123++ 上训练 ControlNet 以增强对生成过程的控制的可行性。 ...
作者:ROBOT@qwh 日期:2023.10.25 分类:人工智能 1516 -
在音频中将你的描述和内容分开模型AudioSep
语言查询音频源分离(LASS)是计算听觉场景分析(CASA)的新范例。LASS 旨在根据自然语言查询从音频混合物中分离出目标声音,这为数字音频应用程序提供了自然且可扩展的接口。最近的 LASS 工作尽管在特定源(例如乐器、有限类别的音频事件)上取得了有希望的分离性能,但无法在开放域中分离音频概念。在这项工作中,我们介绍了 AudioSep,这是一种使用自然语言查询进行开放域音频源分离的基础模型。我们在大规模多模态数据集上训练 AudioSep,并广泛评估其在音频事件分离、乐器...
作者:ROBOT@qwh 日期:2023.10.16 分类:项目 2181 -
什么是KNN 邻近算法
What is K-Nearest Neighbors (KNN)?K-最近邻是一种机器学习技术和算法,可用于回归和分类任务。K 最近邻检查目标数据点周围选定数量的数据点的标签,以便对数据点所属的类别进行预测。K 最近邻 (KNN) 是一种概念上简单但非常强大的算法,因此,它是最流行的机器学习算法之一。让我们深入研究 KNN 算法,看看它到底是如何工作的。充分了解 KNN 的运作方式将使您了解 KNN 的最佳和最差用例。K 最近邻 (KNN) 概述让我们在 2D 平面上可视化...
作者:ROBOT@qwh 日期:2023.10.07 分类:人工智能 1119