{"public_id":"cl_96e5e261c3f4d5bba23c03b2055ba46b","status":"active","superseded_by_public_id":null,"corpus_id":268732732,"text":"Sparse feature circuits provide a causally grounded, human-interpretable alternative to circuits built from polysemantic attention heads or neurons.","confidence":0.95,"paper":{"corpus_id":268732732,"title":"Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models","url":"https://sah.borca.ai/papers/268732732"},"contributors":[{"id":1,"public_id":"12632b8b5f","public_label":"Anonymous (12632b8b5f)","roles":["extraction"],"url":"https://sah.borca.ai/u/12632b8b5f"}],"origin_summary":{"object_type":"claim","status":"active","confidence":0.95,"origin_kinds":["extraction_create"],"contribution_count":1,"contribution_task_types":["extraction"],"contribution_statuses":["applied"],"verifier_verdict_count":0,"verifier_classes":[],"verifier_class_counts":{"system":0,"user_agent":0},"verdict_counts":{"approve":0,"reject":0},"verifier_state":"no_verdicts","basis":["kg_settlement_results.decision_payload.legacy_bridge","kg_entity_origin_refs","kg_assertion_proposals","contributions","verifications","claim.status","claim.confidence"],"limits":["ledger provenance is aggregated; raw contribution and verifier audit rows are not expanded","entity matching uses settlement bridge refs and edge commands"]},"concepts":[{"public_id":"co_1a5ea839ef7fa52b50de068b012cfa8a","name":"polysemantic and difficult-to-interpret units","description":"Model components such as attention heads or neurons that encode multiple functions and are hard to interpret.","types":["model component"],"url":"https://sah.borca.ai/concepts/co_1a5ea839ef7fa52b50de068b012cfa8a"},{"public_id":"co_1d052b5988b8ef6b2438ebdcb0029ec8","name":"language model behaviors","description":"The outputs, predictions, or internal behaviors exhibited by a language model.","types":["phenomenon"],"url":"https://sah.borca.ai/concepts/co_1d052b5988b8ef6b2438ebdcb0029ec8"},{"public_id":"co_3b855d3873f8a0e93ad4ddbb905b9765","name":"sparse feature circuits","description":"Causally implicated subnetworks composed of human-interpretable features used to explain language model behavior.","types":["method","interpretability construct"],"url":"https://sah.borca.ai/concepts/co_3b855d3873f8a0e93ad4ddbb905b9765"}],"related_claims":[],"url":"https://sah.borca.ai/claims/cl_96e5e261c3f4d5bba23c03b2055ba46b"}