Player FM uygulamasıyla çevrimdışı Player FM !
Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude
Manage episode 426909075 series 2911119
In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.
208 bölüm
Manage episode 426909075 series 2911119
In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.
208 bölüm
Semua episod
×Player FM'e Hoş Geldiniz!
Player FM şu anda sizin için internetteki yüksek kalitedeki podcast'leri arıyor. En iyi podcast uygulaması ve Android, iPhone ve internet üzerinde çalışıyor. Aboneliklerinizi cihazlar arasında eş zamanlamak için üye olun.