主动学习使训练监督模型成为一个迭代过程。该模型对来自大型数据集的标记数据的初始子集进行训练。然后,它会尝试根据所学知识对其余未标记数据进行预测。ML 工程师评估模型在其预测中的确定性,并通过使用各种采集函数,可以量化通过注释其中一个未标记样本而增加的性能优势。
通过在其预测中表达不确定性,该模型正在自行决定哪些额外数据对其训练最有用。在这样做时,它要求注释者仅提供该特定类型数据的更多示例,以便它可以在下一轮训练期间对该子集进行更深入的训练。可以把它想象成对学生进行测验以找出他们的知识差距在哪里。一旦你知道他们遗漏了什么问题,你就可以为他们提供教科书、演示文稿和其他材料,这样他们就可以有针对性地学习,更好地理解该主题的特定方面。
通过主动学习,训练模型从线性过程转变为具有强大反馈回路的循环过程。
将人工智能系统视为静态软件是一个常见的错误,这些系统必须不断学习和发展。