机器学习 - 人工智能机器人技术网

使用语言让机器人更好地掌握开放世界

想象一下，您正在国外拜访一位朋友，您查看了他们的冰箱，看看有什么可以做一顿丰盛的早餐。许多物品一开始对您来说都是陌生的，每一件物品都装在不熟悉的包装和容器中。尽管存在这些视觉上的区别，您还是开始了解每一种的用途，并根据需要选择它们。受人类处理不熟悉物体的能力的启发，麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一个团队设计了机器人操纵特征场 (F3RM)，这是一个将 2D 图像与基础模型特征混合到 3D 场景中的系统，以帮助机器人识别并抓住附近的物品。F3RM可以...
作者：airobotnews 日期：2023.11.16 分类：人工智能 429
什么是小样本学习？

小样本学习是指使用极少量的训练数据来开发人工智能模型的各种算法和技术。少样本学习致力于让人工智能模型在接触相对较少的训练实例后识别和分类新数据。少样本训练与训练机器学习模型的传统方法形成鲜明对比，传统方法通常使用大量训练数据。小样本学习主要用于计算机视觉。为了对小样本学习有更好的直觉，让我们更详细地研究这个概念。我们将研究少样本学习背后的动机和概念，探索一些不同类型的少样本学习，并涵盖高层少样本学习中使用的一些模型。最后，我们将研究一些小样本学习的应用程序。什么是小样本学习？...
作者：ROBOT@qwh 日期：2023.11.07 分类：人工智能 627
Zero123++：从单张图像推理出多个视图模型

Zero123++，这是一种图像条件扩散模型，用于从单个输入视图生成 3D 一致的多视图图像。为了充分利用预训练的 2D 生成先验，我们开发了各种条件和训练方案，以最大限度地减少现成图像扩散模型（例如稳定扩散）的微调工作。Zero123++ 擅长从单个图像生成高质量、一致的多视图图像，克服纹理退化和几何错位等常见问题。此外，我们展示了在 Zero123++ 上训练 ControlNet 以增强对生成过程的控制的可行性。 ...
作者：ROBOT@qwh 日期：2023.10.25 分类：人工智能 680
在音频中将你的描述和内容分开模型AudioSep

语言查询音频源分离（LASS）是计算听觉场景分析（CASA）的新范例。LASS 旨在根据自然语言查询从音频混合物中分离出目标声音，这为数字音频应用程序提供了自然且可扩展的接口。最近的 LASS 工作尽管在特定源（例如乐器、有限类别的音频事件）上取得了有希望的分离性能，但无法在开放域中分离音频概念。在这项工作中，我们介绍了 AudioSep，这是一种使用自然语言查询进行开放域音频源分离的基础模型。我们在大规模多模态数据集上训练 AudioSep，并广泛评估其在音频事件分离、乐器...
作者：ROBOT@qwh 日期：2023.10.16 分类：项目 1441
什么是KNN 邻近算法

What is K-Nearest Neighbors (KNN)?K-最近邻是一种机器学习技术和算法，可用于回归和分类任务。K 最近邻检查目标数据点周围选定数量的数据点的标签，以便对数据点所属的类别进行预测。K 最近邻 (KNN) 是一种概念上简单但非常强大的算法，因此，它是最流行的机器学习算法之一。让我们深入研究 KNN 算法，看看它到底是如何工作的。充分了解 KNN 的运作方式将使您了解 KNN 的最佳和最差用例。K 最近邻 (KNN) 概述让我们在 2D 平面上可视化...
作者：ROBOT@qwh 日期：2023.10.07 分类：人工智能 485

1

热门文章

康普顿未来智慧农场

康普顿未来农场，使用更少的水和1%的土地，即可实现与产统农业相同产量....
拆解 OpenAI 的新董事会

在人工智能和技术领域掀起波澜的惊人事件中，人工智能领域的领先实体 OpenAI 最近的领导地位发生了重大转变。以萨姆·奥尔特曼 (Sam Altman) 戏剧性地重返首席执行官职位以及随之而来的董事会改组为标志，这些变化代表了该组织的关键时刻。OpenAI 以其在人工智能研究和开发方面的开创性工作而闻名，包括广泛认可的 ChatGPT 和 DALL-E 模型，站在人工智能进步的最前沿。因此，董事会的重组不仅仅是人员的变动，还标志着人工智能领域最具影响力的组织之一的方向、优先事...
一种自动确定计算机游戏状态中可能动作的方法

由于手动彻底测试视频游戏软件非常困难，因此需要拥有能够自动探索不同游戏功能的人工智能代理。此类代理的关键要求是玩家动作的模型，代理可以使用该模型来确定不同游戏状态下的可能动作集，以及对代理策略选择的游戏执行选定的动作。目前使用的典型游戏引擎不提供这样的动作模型，导致现有的工作要么需要人工手动定义动作模型，要么不精确地猜测可能的动作。在我们的工作中，我们通过为游戏中存在的用户输入处理逻辑开发最先进的分析方法来演示程序分析如何有效解决该问题，该分析可以使用离散动作空间自动建模游戏...
使用众包反馈来帮助训练机器人

为了教人工智能代理一项新任务，比如如何打开厨房柜子，研究人员经常使用强化学习——这是一种试错过程，在该过程中，代理会因采取更接近目标的行动而获得奖励。在许多情况下，人类专家必须仔细设计奖励函数，这是一种激励机制，赋予代理人探索的动力。当智能体探索并尝试不同的动作时，人类专家必须迭代地更新奖励函数。这可能非常耗时、效率低下，并且难以扩展，尤其是当任务复杂且涉及许多步骤时。来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法，该方法不依赖于专门设计的奖励函数...
HierSpeech++：通过零样本语音合成新架构

基于大语言模型（LLM）的语音合成已广泛应用于零样本语音合成中。然而，它们需要大规模数据，并且具有与以前的自回归语音模型相同的局限性，包括推理速度慢和缺乏鲁棒性。本文提出了 HierSpeech++，一种快速、强大的零样本语音合成器，用于文本到语音（TTS）和语音转换（VC）。我们验证了分层语音合成框架可以显着提高合成语音的鲁棒性和表现力。此外，即使在零样本语音合成场景中，我们也显着提高了合成语音的自然度和说话人相似度。对于文本到语音，我们采用文本到向量框架，该框架根据文本表...