Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Kaspersky tedarik zinciri saldırılarındaki yükselişe dikkati çekti

Şirketten yapılan açıklamaya göre, Kaspersky, Tayland’ın Phuket Adası’nda bu yıl onuncusunu düzenlediği Cyber Security Weekend (Siber Güvenlik Haftasonu)-META 2025 Konferansı’nda, açık kaynaklı projelerde tespit edilen zararlı paketlere ilişkin bilgi …

Güncelleme yapan yandı: Telefonlar kullanılamaz hale geldi

Samsung Galaxy A56 kullanıcıları, son yazılım güncellemesi sonrası ciddi sorunla karşılaşıyor. Güncelleme telefonları kullanılmaz hale getiriyor.

Otomotiv devinde fren tutmuyor: 3 bin kişiyi kapının önüne koyacaklar

İsveçli otomobil üreticisi Volvo, süregelen yeniden yapılanma süreci kapsamında, idari kadrosundaki çalışanların yaklaşık yüzde 15’ine karşılık gelen 3 bin kişiyi işten çıkarma planını açıkladı.

Gözler kapalıyken bile görmeyi sağlayan kızılötesi lensler geliştirildi

Bilim insanları, insan gözünün normalde algılayamadığı yakın kızılötesi ışığı görünür ışığa dönüştüren devrim niteliğinde bir kontakt lens geliştirdi. Bu yenilikçi teknoloji, özellikle gece görüşü sağlayarak hem insanlar hem de fareler üzerinde yapılan testlerde başarılı sonuçlar verdi.

Twitter’da (X) mesajlar açılmıyor! 23 Mayıs X çöktü mü?

23 Mayıs 2025 tarihinde, Twitter (X) kullanıcıları mesajlarına erişimde zorluk yaşamaya başladı. Kullanıcılar, platformda mesajların açılmadığını ve gönderi yükleme sorunlarıyla karşılaştıklarını bildiriyor. Peki, 23 Mayıs’ta X çöktü mü?

Apsiyon Yönetici Sohbetleri’nin 18. durağı Adana oldu

Türkiye’nin önde gelen site ve tesis yönetim yazılımı Apsiyon, 2025 yılının ilk “Yönetici Sohbetleri” etkinliğini geçtiğimiz hafta Adana’da gerçekleştirdi. DoubleTree by Hilton Adana’da düzenlenen etkinlik, yönetim sektörü profesyonellerini bir araya …