人工智能 Cryptocurrency Metaverse 网络安全 科技前进

以色列初创公司提出1850万美元来训练人工智能假数据

2021年3月16日,7点是UTC

订阅关注人工智能专家每周分析人工智能的交集,免费的发送到你的收件箱。

公司使用人工智能感兴趣时面临着一个巨大障碍:有足够的正确的数据来训练他们的系统。

公司需要大量的标签,历史例子来训练人工智能系统,特别是那些使用图像和视频。的需求催生了整个sub-industry的公司专门帮助其他企业注释他们的数据。其中有规模的人工智能,这是价值35亿美元在2020年12月一轮融资,蜂巢,央行,Labelbox, Cloudfactory,和人工智能的一个部门公司Clarifai等。

但有另一种方法来产生足够的数据来训练人工智能系统:制造它。

假到你

这就是所谓快速增长的以色列启动DataGen专门做的。公司使用自己的机器学习系统创建所谓的“合成数据”——在这种情况下,人工生成仍然和视频图像DataGen的客户然后使用训练自己的人工智能

DataGen可以为客户定制合成数据集在短短几小时,说的方法Chakon, DataGen的创始人兼首席执行官。相比之下,它通常需要几个月数据标签公司牧师一个等价的真实世界的视频或图像库。

合成数据也有其他的优势,除了速度。合成数据,公司不需要担心任何个人识别信息的数据集,他们也不需要担心的伦理性考量数据是如何收集的。这个功能很重要,越来越多的世界人口覆盖的数据保护法律。欧宝球网站Gartner技术分析公司说,到2023年,世界上65%的人口将有他们的个人数据被一些隐私的规定,从去年的10%。

数据偏差仍然可以是一个问题。合成数据集,在某些情况下,简单的复制同样的偏见中发现一个真实的数据集。但DataGen方法有可能消除偏见。公司可以形状数据集生成然而愿望,允许该公司创建更多的例子欧宝球网站不寻常的或罕见的情况下确保一个人工智能系统将知道如何处理这些。例如,机器人会发生什么,使用摄像头来“看”导航在仓库如果有停电,仓库的低级应急照明开关?这些罕见的情况下获得足够的例子是与现实世界的数据集困难得多。欧宝球网站

由DataGen

“我们的顾客已经完全控制所有的参数,进入数据创建、“Chakon说。”的实际含义是,一旦部署,可以肯定的是它会工作在不同的领域,不同种族,不同地理位置或任何环境你可以想象。”

整个人工智能产业的推动者

DataGen吸引了一些大牌投资者。

周二,该公司宣布了一项1850万美元早期一轮融资导致以色列风险投资基金合作伙伴和中提琴男子项目。圆还包括一个令人印象深刻的机器学习名人的列表。Michael黑色包括计算机视觉先锋现马克斯普朗克研究所主任智能系统;加Chechik,人工智能研究主管电脑芯片巨头0b足球英伟达;的首席执行官和共同创始人安东尼•Goldbloom机器学习竞争网站Kaggle;和特雷福达雷尔,加州大学伯克利分校的计算机科学教授。现有投资者蜘蛛资本参与新的一轮融资。

罗娜戈夫,创始合伙人的男子说,模拟数据“地址问题,只是没有它不能解决的。“她说合成数据”整个人工智能产业的推动者。没有模拟数据,该行业将会放缓。”

DataGen表示,将利用资金来雇佣更多的机器学习专家和工程师,扩大从目前的30名员工,欧宝球网站其中大部分位于以色列。Chakon还表示,该公司将扩大其重点从为机器学习创造的训练集的数据也用来测试这些人工智能系统,一旦他们被训练。

未来产品计划旨在解决一个主要问题有很多人工智能系统:质量保证。通常,只有一小部分的可用数据用于测试是一个人工智能,它可能是一个公司很难测试足够的罕见情况下知道如何一个人工智能将执行如果遇到相同或相似的情况在现实世界中。

由DataGen

DataGen的合伙人的方法Chakon,首席执行官(左)和吉尔·巴兹,科技首席(右)创建所谓的合成数据来训练人工智能系统。

创业,成立于2018年,迄今大约10付费用户,“都是大公司,”Chakon说,尽管他说合同协议阻止他命名。DataGen仓库的数据已经被用于训练机器人从传送带上挑选商品,帮助工厂运营的家电制造商,和物理安全的应用程序,如确定举升机在零售商店购物。

就像真的一样

“我们的专家与室内环境和人类的一切看法,“Chakon说,补充说,该公司还可以模拟人们在室内环境中移动的方式。“我们生成的数据看起来就像目标域。”

换句话说,一套DataGen-created图像的各种家居用品crate-a场景用来训练机器人采摘手臂物流warehouse-looks就像那些对象的真正开销视频拍摄的图像在一个真正的板条箱在仓库输送机。制造现场的厨房看起来好像公司已经和委托摄影真正的厨房。和模拟人的脸显示所有相同的运动点,纹理,肤色就会发现一个真正的照片或视频。

DataGen代表对象和使用软件的人一种三维网格,允许用户轻松地编辑和调整他们的大小和形状。公司对视觉与物理网络模拟器创建现实场景的移动对象。通过这样做,公司可以很容易地描述发生了什么当一个物体或在另一个之上,可能模糊对象从一个特定角度的清晰视图。

称为GAN DataGen使用机器学习技术,简称“生成对抗网络”来创建其现实的模拟。甘斯也支撑的创建所谓Deepfakes,这是一种合成数据,但Deepfakes只存在于一个一个人的脸的二维表示,而不是一个三维的。

Chakon说他认为DataGen使用3 d仿真使它优于其他公司正试图使用二维照片和视频创建合成数据。他说这是更难以模拟objects-pa欧宝球网站rticularly当一个对象的交互模糊或切断另一个或两个物体collide-accurately只有二维的数据。

欧宝球网站更多的必读科技报道欧宝竞技ob: