Artwork

İçerik Aaron Bergman tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Aaron Bergman veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.
Player FM - Podcast Uygulaması
Player FM uygulamasıyla çevrimdışı Player FM !

Deceptive Tendencies of Language Models | Olli Järviniemi | EAGxNordics 2024

16:50
 
Paylaş
 

Manage episode 446548746 series 3503936
İçerik Aaron Bergman tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Aaron Bergman veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.

AI systems deceiving humans, particularly about their alignment, pose significant challenges for ensuring their safety. Olli Järviniemi talks about his recent research on the deceptive tendencies of language models: will LLMs take deceptive actions without external instruction or pressure to do so? The basic approach is to create a realistic simulation environment and naturally provide opportunities for deception. The focus of this talk is on the experimental setup and results, with some discussion of future research directions.

Watch on Youtube: https://www.youtube.com/watch?v=ynF8QuyO_9Q

  continue reading

182 bölüm

Artwork
iconPaylaş
 
Manage episode 446548746 series 3503936
İçerik Aaron Bergman tarafından sağlanmıştır. Bölümler, grafikler ve podcast açıklamaları dahil tüm podcast içeriği doğrudan Aaron Bergman veya podcast platform ortağı tarafından yüklenir ve sağlanır. Birinin telif hakkıyla korunan çalışmanızı izniniz olmadan kullandığını düşünüyorsanız burada https://tr.player.fm/legal özetlenen süreci takip edebilirsiniz.

AI systems deceiving humans, particularly about their alignment, pose significant challenges for ensuring their safety. Olli Järviniemi talks about his recent research on the deceptive tendencies of language models: will LLMs take deceptive actions without external instruction or pressure to do so? The basic approach is to create a realistic simulation environment and naturally provide opportunities for deception. The focus of this talk is on the experimental setup and results, with some discussion of future research directions.

Watch on Youtube: https://www.youtube.com/watch?v=ynF8QuyO_9Q

  continue reading

182 bölüm

Alla avsnitt

×
 
Loading …

Player FM'e Hoş Geldiniz!

Player FM şu anda sizin için internetteki yüksek kalitedeki podcast'leri arıyor. En iyi podcast uygulaması ve Android, iPhone ve internet üzerinde çalışıyor. Aboneliklerinizi cihazlar arasında eş zamanlamak için üye olun.

 

Hızlı referans rehberi