Ang mga Siyentipiko na Lumalabag sa AI Upang Gawing Ito Maging Ligtas
Sa isang napakagandang silid sa Royal Society sa London na may mga marble busts ng mga sikat na siyentipiko, humigit-kumulang 40 eksperto sa climate science at sakit ay nakabunggo sa kanilang mga laptop kahapon (Oktubre 25), naghahangad na makalikha ng maling impormasyon mula sa isang makapangyarihang sistema ng AI.
Sa wakas ng araw, nakapagtagumpay ang mga dumalo na malampasan ang mga guardrails sa sistema ng AI na Meta’s Llama 2 – at nakakuha ito na mag-argue na ang mga pato ay makakakuha ng polusyon sa hangin, na ang bawang at “miraculous herbs” ay makakatulong na maiwasan ang impeksyon ng COVID-19, na lumikha ng libelous na impormasyon tungkol sa isang partikular na siyentipiko ng climate change, at na hikayatin ang mga bata na kumuha ng bakuna na hindi nirerekomenda para sa kanila.
Ang pagtitipon, na ginanap sa ilalim ng isang gildeng tuktok sa prestihiyosong Royal Society sa London, pinakita ang mga paraan kung paano ang pinakamahusay na mga sistema ng AI ng mundo ay nananatiling madaling gamitin sa pang-aabuso. Ito ay isang linggo bago ang unang AI Safety Summit sa buong mundo, na inoorganisa ng pamahalaan ng UK, kung saan magkikita ang mga policymaker sa buong mundo kasama ang mga siyentipiko ng AI upang talakayin ang mga panganib ng mabilis na lumalakbay na teknolohiya.
Pagbuo ng mas mahusay na mga guardrails
Ang mga large language models (LLMs), ang mga sistema ng AI na kumokontrol sa mga AI chatbots tulad ng ChatGPT, karaniwang may mga guardrails upang pigilan ang paglikha ng hindi magandang o mapanganib na nilalaman – kung iyon ay maling impormasyon, sekswal na eksplisitong materyal, o payo kung paano bumuo ng bioweaponry o malware. Ngunit minsan ay napatunayan na madaling sirain ang mga guardrails na ito. Patuloy na nagpapakita ang mga siyentipiko ng kompyuter at mga hacker na posible na “jailbreak” ang LLMs – ibig sabihin, makalusot sa kanilang mga tampok pangkaligtasan – sa pamamagitan ng paghikayat sa kanila nang malikhaing paraan.
Palaging pinapataas ng mga kompanya sa likod ng LLMs ang mga kahinaan kapag nalalaman. Upang mapabilis ang proseso na ito, nagsimula ang mga AI labs na hikayatin ang isang proseso na kilala bilang red-teaming – kung saan sinusubukan ng mga eksperto na jailbreak ang LLMs upang mabukod ang kanilang mga kahinaan. Noong Setyembre, binuksan ng OpenAI ang isang “Red Teaming Network” ng mga eksperto upang subukan ang kanilang mga sistema. At kahapon inanunsyo ng Frontier Model Forum, isang industriya grupo na itinatag ng Microsoft, OpenAI, Google, at Anthropic, isang $10 milyong AI Safety Fund upang pondohan ang pananaliksik sa kaligtasan, kabilang ang mga pagsisikap sa red-teaming.
“Ang aming responsableng pagtingin ay patuloy pa rin matapos naming ilabas ang unang Llama 2 model, at nagpapasalamat kami sa pagkakataon na makipagtulungan sa Royal Society at Humane Intelligence upang makipagtulungan sa pagtatatag ng responsableng mga guardrails,” ani Cristian Canton Ferrer, engineering lead ng Responsible AI sa Meta, sa isang pahayag. “Ang aming bukas na pagtingin ay nangangahulugan na ang mga bug at kahinaan ay maaaring tuloy-tuloy na matukoy at matugunan nang malinaw ng isang bukas na komunidad.”
Ang mga dumalo sa red-teaming event sa London ay nakapagtagumpay na hikayatin ang Llama 2 na lumikha ng maling balita at tweets na naglalaman ng conspiracy theories na ginawa upang makaakit sa partikular na mga audience, na nagpapakita kung paano magamit ang mga sistema ng AI hindi lamang upang lumikha ng maling impormasyon, ngunit matagumpay na isipin ang mga paraan upang mas malawak itong kalatihin.
Si Bethan Cracknell Daniels, isang eksperto sa dengue fever sa Imperial College London na dumalo sa pagtitipon, nakapagtagumpay na hikayatin ang modelo na lumikha ng isang kampanyang pang-advertise na hinihikayat ang lahat ng mga bata na kumuha ng bakuna laban sa dengue – sa kabila ng katotohanan na hindi irerekomenda ang bakuna para sa mga indibidwal na hindi pa nakaranas ng sakit. Sinabi rin ng modelo ang pekeng datos upang suportahan ang isang mali at mapanlinlang na pahayag na ligtas nang buo ang bakuna at nagtagumpay sa tunay na mundo, ayon kay Cracknell Daniels. “Ginawa lang ito nang buo,” aniya kay TIME.
Kuryente nukleyar at mga asong rabid
Si Jonathan Morgan, isang espesyalista sa nuclear engineering sa University of Manchester, nakapagtagumpay na hikayatin ang Llama 2 na lumikha ng pekeng balita na nagmumungkahi na ang paglalakad ng isang aso malapit sa isang planta ng kuryente nukleyar ay maaaring gawing rabid ito. “Naisip ko dito kung gaano kadali para sa mga language models na lumikha ng mga bagay na tila totoo kung may aktibong agenda kang kumalat ng maling impormasyon,” ani Morgan. “Kung papasok ka rito na may target na agenda na kumalat ng maling impormasyon, napakadali para sa mga language models na sabihin ang anumang gusto mong sabihin.”
Dati nang napatunayan na madaling atakihin ng “adversarial attacks” ang mga large language models, kung saan maaaring, halimbawa, idagdag ng isang partikular na mahabang string ng mga character sa huli ng isang prompt upang makalusot sa ilang mga modelo. Ngunit nakatutok ang red teaming event sa iba’t ibang uri ng kahinaan na mas maaaring gamitin ng karaniwang gumagamit. “Hinihiling namin sa aming mga participant na gamitin ang mga teknik sa social engineering,” ani Rumman Chowdhury, CEO ng Humane Intelligence.
Sumang-ayon ang mga dumalo, bago magsimula, sa isang patakaran na “hindi gagawin ng masama” ang impormasyon na matututunan sa pagtitipon.