Una herramienta innovadora diseñada para revolucionar las pruebas, la evaluación y la seguridad de las aplicaciones LLM. Esta herramienta versátil admite un enfoque de desarrollo basado en pruebas, lo que permite a los desarrolladores optimizar de manera eficiente sugerencias, modelos y API.
Ya sea que esté buscando una seguridad sólida mediante CLI, integración en CI/CD o mediante equipos rojos automatizados, Promptfoo proporciona soluciones integrales para mejorar la confiabilidad y seguridad de sus aplicaciones LLM.
promptfoo
es una herramienta para probar, evaluar y formar equipos rojos en aplicaciones LLM.
Usando Promptfoo puedes:
- Construya señales, modelos y RAG confiables Tenga puntos de referencia específicos para su caso de uso
- Proteja sus aplicaciones y automatización equipo rojo y pruebas de penetración
- Acelerar la evaluación Con almacenamiento en caché, concurrencia y recarga instantánea
- Puntuación automática de resultados por definición índice
- utilizado como interfaz de línea de comando, bibliotecao en Integración continua/entrega continua
- Utilice modelos de código abierto como OpenAI, Anthropic, Azure, Google, HuggingFace, Llama, etc., o integre proveedores de API personalizados. Cualquier API de LLM
Objetivo: Desarrollo de LLM basado en pruebas Más que prueba y error.
npx promptfoo@latest init
Tabla de Contenidos
¿Por qué elegir Promptfoo?
Hay muchas formas diferentes de evaluar las propinas. Aquí hay algunas razones para considerar el aviso:
- Apto para desarrolladores:promptfoo es rápido y tiene funciones de calidad como recarga instantánea y almacenamiento en caché.
- Probado:Creado originalmente para aplicaciones LLM y brinda servicio a más de 10 millones de usuarios en entornos de producción. Nuestras herramientas son flexibles y pueden adaptarse a una variedad de entornos.
- Caso de prueba declarativo simple: Defina evaluaciones sin escribir código ni utilizar un cuaderno voluminoso.
- agnosticismo del lenguaje: Utilice Python, Javascript o cualquier otro lenguaje.
- Comparte y colabora: Función para compartir integrada y visor de red para colaborar con compañeros de equipo.
- Código abierto: Las evaluaciones de LLM son un producto básico y deben ser proporcionadas por proyectos 100% de código abierto sin condiciones.
- privado: El software se ejecuta completamente localmente. La evaluación se ejecuta en su computadora y habla directamente con el LL.M.
Flujo de trabajo
Comience por crear algunos casos de prueba: los casos de uso principales y los casos de falla que desea asegurarse de que las indicaciones puedan manejar.
A medida que explora las modificaciones a sus indicaciones, utilice promptfoo eval
Califique todas las salidas. Esto garantiza que las indicaciones mejoren en general.
Continúe creando un conjunto de casos de prueba a medida que recopile más ejemplos y establezca ciclos de comentarios de los usuarios.
Uso – Evaluación
Primero, ejecute el siguiente comando:
npx promptfoo@latest init
Esto creará un promptfooconfig.yaml
Marcador de posición para el directorio actual.
Después de editar las indicaciones y variables a su gusto, ejecute el comando eval para iniciar la evaluación:
npx promptfoo@latest eval
Para obtener más información, haga clic aquí.