通过编程方式访问产品
在预生产阶段,大多来进行测试。但是,如果你想使用数百个或更多的数据点,那么这种界面的扩展性就很差。这就是为什么需要有代码来以编程方式访问产品的原因。这听起来可能很简单,但除非你的产品是为编程访问而构建的,否则这将非常困难。我们建议:
设计产品以使其具
有编程可访问性,以便进行大规模测试。对于模型,这通常意味着从 hugging face 中提取模型或访问 api 检查点。但是,对于产品,这可能有点棘手,因为这取决于工程团队如何构建产品。如果他们首先制作了产品 api,这个问题就很容易解决了。但如果产品不是用易于使用的 api 构建的,则可能需要构建类 whatsapp 号码数据 似 python 客户端的东西。
为组织中的其他工程师提供一些文档,帮助他们了解如何使用 api 或 py thon 客户端。这包括必要的参数、所需的设置和样板代码。
如果满足上述条件,则可以采取额外的可选步骤:构建您自己 套服务是迄今为止最 的可以自动化测试的包。通过适当地链接到 api,构建良好的包可以帮助确保重复测试是真正的复制,从而提高可重复性。
在未来的博客文章中,我们将讨论如何构建这样的软件包以实现自动红队的创建,以及为此应构建哪些组件。
分类一旦收到模型输出
就需要对其进行评估以确定系统的性能。要自信地报告这一点,您需 brb 目录 要创建清晰的定义,可用作所有利益相关者的校准点。例如,对于毒性测试,您必须定义您的用例的毒性。尽早确定概念化的具体程度将为您节省大量重构工作。这项工作应与产品和工程团队协同完成,以创建最适合您用例的解决方案。
设计、维护和实施分类法和标准的一些最佳实践如下:
创建特定于您的项目和领域的术语表。通常,在同一个项目空间中,会有一些术语被重复使用,但含义略有不同。找出所有含糊不清的术语用法,并促进对话,以就每个术语的单一标准定义达成一致。记录好这个单一定义,并确保所有利益相关者都可以访问该术语表。