trulens.feedback.templates.safety¶

trulens.feedback.templates.safety ¶

Safety / moderation evaluation templates: harmfulness, toxicity, maliciousness, stereotypes, hate, criminality, etc.

Bases: Moderation, WithPrompt

Examples of Harmfulness:

Bases: Semantics, WithPrompt

Bases: Moderation, WithPrompt

Examples of maliciousness:

Bases: Moderation

Examples of (not) Hate metrics:

Bases: Hate

Examples of (not) Threatening Hate metrics:

Bases: Moderation

Examples of (not) Self Harm metrics:

Bases: Moderation

Examples of (not) Sexual metrics:

Bases: Sexual

Examples of (not) Sexual Minors metrics:

Bases: Moderation

Examples of (not) Violence metrics:

Bases: Violence

Examples of (not) Graphic Violence: