Humanity's Last Exam is still accepting questions from late contributors and submissions for the dataset and co-authorship, but new submissions are not eligible for the prize pool.

New Submission(for new contributors)

Humanity's Last Exam

Paper

Datasetload_dataset("cais/hle")

GitHub

Long Phan^*1, Alice Gatti^*1, Ziwen Han^*2, Nathaniel Li^*1

Josephina Hu², Hugh Zhang^‡, Sean Shi², Michael Choi², Anish Agrawal², Arnav Chopra²

Adam Khoja¹, Ryan Kim^†, Richard Ren¹, Jason Hausenloy¹, Oliver Zhang¹, Mantas Mazeika¹

Summer Yue^**2, Alexandr Wang^**2, Dan Hendrycks^**1

¹Center for AI Safety, ²Scale AI

Authors

Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Trần Quốc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D.O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai (Michael Pokorny), Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C.H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu (Quinn) Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long (Tony) Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I.M.J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan

Affiliations

³Independent Researcher, ⁴Texas A&M University, ⁵McGill University, ⁶Queen's University, ⁷Stanford University, ⁸University of Washington, ⁹University of California, San Diego, ¹⁰RWTH Aachen University, ¹¹Pondicherry Engineering College, ¹²Institute of Mathematics of NAS of Ukraine, ¹³ELTE, ¹⁴University of Porto, ¹⁵University of Cambridge, ¹⁶Kyiv Polytechnic Institute, ¹⁷ETH Zürich, ¹⁸Nimbus AI, ¹⁹Georgia Southern University, ²⁰Durham University, ²¹University of Minnesota Twin Cities, ²²Queen Mary University of London, ²³Alberta Health Services, ²⁴Microsoft Research, ²⁵ZG Law, ²⁶Outlier, ²⁷Hereford College of Arts, ²⁸Auckland University of Technology, ²⁹Princeton University, ³⁰Carnegie Mellon University, ³¹Hemwati Nandan Bahuguna Garhwal University, ³²Massachusetts Institute of Technology, ³³Accenture Labs, ³⁴Escuela Superior de Medicina- Instituto Politécnico Nacional, ³⁵CICMA, ³⁶University of Canterbury, ³⁷Metropolitan State University of Denver, ³⁸California Institute of Technology, ³⁹Université de Yaoundé I, ⁴⁰Ecole Nationale Supérieure Polytechnique de Yaoundé, ⁴¹Tanta University, ⁴²Tufts University, ⁴³The Jackson Laboratory, ⁴⁴Inria, ⁴⁵University of California, Berkeley, ⁴⁶Columbia University, ⁴⁷Institute of Science and Technology Austria, ⁴⁸RUSM, ⁴⁹University of British Columbia, ⁵⁰École Polytechnique Fédérale de Lausanne, ⁵¹University of Oxford, ⁵²Charité – Universitätsmedizin, ⁵³Humboldt-Universität zu Berlin, ⁵⁴Happy Technologies LLC, ⁵⁵Northern Illinois University, ⁵⁶Sapienza University of Rome, ⁵⁷National University of Singapore, ⁵⁸University of Southern California, ⁵⁹University of Tübingen, ⁶⁰University of Sao Paulo, ⁶¹Universidade Federal de Juiz de Fora, ⁶²Sorbonne Université, ⁶³École Normale Supérieure, ⁶⁴C. N. Yang institute for Theoretical Physics, ⁶⁵University of Luxembourg, ⁶⁶University of Malaya, ⁶⁷Rockwell Automation, ⁶⁸Contramont Research, ⁶⁹Washington University, ⁷⁰CNRS, ⁷¹Université Paris-Saclay, ⁷²University of Toronto, ⁷³Google DeepMind, ⁷⁴University of North Texas, ⁷⁵Institut Polytechnique de Paris, ⁷⁶TRR Designs, ⁷⁷University of Chicago, ⁷⁸Maastricht University, ⁷⁹University of California, Los Angeles, ⁸⁰Martin-Luther-University Halle-Wittenberg, ⁸¹Leibniz University Hannover, ⁸²Indian Institute of Technology Bombay, ⁸³University of Calgary, ⁸⁴Institute for Molecular Manufacturing, ⁸⁵University of Wisconsin-Madison, ⁸⁶University of Michigan, ⁸⁷Bethune-Cookman University, ⁸⁸St. Petersburg College, ⁸⁹La Molina National Agrarian University, ⁹⁰University of Bath, ⁹¹National University Philippines, ⁹²Vrije Universiteit Brussel, ⁹³PeopleTec, Inc., ⁹⁴New York University, ⁹⁵Technion – Israel Institute of Technology, ⁹⁶University of Miami, ⁹⁷University of Maryland, ⁹⁸Technische Universität Berlin, ⁹⁹Arizona State University, ¹⁰⁰University of Illinois Urbana-Champaign, ¹⁰¹Harvard University, ¹⁰²Royal Holloway, University of London, ¹⁰³Universidad Iberoamericana, ¹⁰⁴TU Wien, ¹⁰⁵Swinburne University of Technology, ¹⁰⁶Yale University, ¹⁰⁷University of Edinburgh, ¹⁰⁸École Normale Supérieure Paris-Saclay, ¹⁰⁹National Information Processing Institute, ¹¹⁰University College London, ¹¹¹Ecco IT, ¹¹²University of Western Australia, ¹¹³Snorkel AI, ¹¹⁴Indiana State University, ¹¹⁵Oxford University, ¹¹⁶Mohamed bin Zayed University of Artificial Intelligence, ¹¹⁷University of Waterloo, ¹¹⁸Manhattan School of Music, ¹¹⁹Universiteit Leiden, ¹²⁰Synbionix, ¹²¹Corteva Agriscience, ¹²²Diverging Mathematics, ¹²³Saint Mary's University, ¹²⁴Emory University, ¹²⁵Sanford Burnham Preybs, ¹²⁶Yonsei University, ¹²⁷Cornell University, ¹²⁸University of Leeds, ¹²⁹Politecnico di Milano, ¹³⁰KU Leuven, ¹³¹Brandenburg University of Technology, ¹³²INSAIT, ¹³³Ruhr University Bochum, ¹³⁴University Mohammed I, ¹³⁵Georgia Institute of Technology, ¹³⁶Northwestern University, ¹³⁷University of Arizona, ¹³⁸Universidade de Lisboa,, ¹³⁹Mānuka Honey and Beekeeping Consultancy Ltd, ¹⁴⁰Charles University, ¹⁴¹Duke University, ¹⁴²Mila, ¹⁴³University of Copenhagen, ¹⁴⁴The University of Sydney, ¹⁴⁵University of Technology Sydney, ¹⁴⁶Indian Institute of Technology Delhi, ¹⁴⁷University of Buenos Aires, ¹⁴⁸University of Amsterdam, ¹⁴⁹Ben-Gurion University, ¹⁵⁰blurrylogic, ¹⁵¹Donald and Barbara Zucker School of Medicine, ¹⁵²Cohere, ¹⁵³Ivy Natal, ¹⁵⁴Hebrew University, ¹⁵⁵Fraunhofer IMTE, ¹⁵⁶University of Pennsylvania, ¹⁵⁷National Institute of Laser Enhanced Sciences, ¹⁵⁸Drexel University, ¹⁵⁹Northeastern University, ¹⁶⁰EHC Investments LLC, ¹⁶¹University of Windsor, ¹⁶²St. Jude Children’s Research Hospital, ¹⁶³GC, ¹⁶⁴Rochester Institute of Technology, ¹⁶⁵Anthropic, ¹⁶⁶CERN, ¹⁶⁷University of California, Santa Barbara, ¹⁶⁸University of Vienna, ¹⁶⁹Warsaw University of Technology, ¹⁷⁰EF Polymers Pvt Ltd, ¹⁷¹North Carolina State University, ¹⁷²Independent researcher, ¹⁷³Simplr AI, Asurion, ¹⁷⁴All India Institute of Medical Sciences, ¹⁷⁵Brown University, ¹⁷⁶Johns Hopkins University, ¹⁷⁷Ruhr-Universität Bochum, ¹⁷⁸Standard Intelligence, ¹⁷⁹Posts and Telecommunications Institute of Technology, ¹⁸⁰Clearhorse Ltd, ¹⁸¹Cranfield University, ¹⁸²JNTU, ¹⁸³Image Processing Lab, Universitat de Valencia, ¹⁸⁴Universität Zürich, ¹⁸⁵UK AI Safety Institute, ¹⁸⁶Boston University, ¹⁸⁷SDAIA, ¹⁸⁸Children’s Hospital of Orange County, ¹⁸⁹The Ohio State University, ¹⁹⁰Cairo University Specialized Pediatric Hospital, ¹⁹¹Universidad de Valencia, ¹⁹²University of Arkansas, ¹⁹³Monash University, ¹⁹⁴OncoPrecision, ¹⁹⁵Genomia Diagnostics Research Pvt Ltd, ¹⁹⁶IEEE Life Member, ¹⁹⁷Larkin Community Hospital, ¹⁹⁸The University of Texas at Dallas, ¹⁹⁹Canadian University Dubai, ²⁰⁰Università di Milano-Bicocca, ²⁰¹University of Massachusetts Lowell, ²⁰²Virginia Tech, ²⁰³University of Geneva, ²⁰⁴Rutgers University, ²⁰⁵MolMind, ²⁰⁶Cal Poly San Luis Obispo, ²⁰⁷Patched Codes, Inc, ²⁰⁸University of Mannheim, ²⁰⁹Chulalongkorn University, ²¹⁰Ecole polytechnique, ²¹¹Stockholm University, ²¹²AE Studio, ²¹³Gaia Lab, ²¹⁴Leibniz Institute for Science and Mathematics Education, ²¹⁵Australian National University, ²¹⁶Saarland University, ²¹⁷College of Eastern Idaho, ²¹⁸Intrinsic Innovation LLC, ²¹⁹HUTECH, ²²⁰INRIA, ²²¹King Saud University, ²²²Universidad de Buenos Aires, ²²³Pennsylvania College of Technology, ²²⁴CERo Therapeutics Holdings, Inc., ²²⁵The Univeirsty of Tennessee, ²²⁶Gray Swan AI, ²²⁷EleutherAI, ²²⁸University of Montpellier, ²²⁹HomeEquity Bank, ²³⁰Materials Platform for Data Science LLC, ²³¹University of Trento, ²³²Fondazione Bruno Kessler, ²³³Cambridge University, ²³⁴LGM, ²³⁵Georgia State University, ²³⁶Polytechnic University of the Philippines, ²³⁷University of Oregon, ²³⁸University of Mumbai, ²³⁹University of Guelph, ²⁴⁰Case Wester Reserve University, ²⁴¹Intuit, ²⁴²CTTC / CERCA, ²⁴³National University, ²⁴⁴Talishar, ²⁴⁵Dyno Therapeutics, ²⁴⁶The Hospital for Sick Children, ²⁴⁷Lewis Katz School of Medicine, ²⁴⁸Fyaora Labs, ²⁴⁹Intelligent Geometries, ²⁵⁰Indian Institute of Technology (BHU), ²⁵¹Center for AI Safety, ²⁵²AIM Intelligence, ²⁵³Seoul National University, ²⁵⁴The University of Texas at Arlington, ²⁵⁵The Hartree Centre, ²⁵⁶Missouri University of Science and Technology, ²⁵⁷POLITEHNICA Bucharest National University of Science and Technology, ²⁵⁸Abacus.AI, ²⁵⁹German Research Center for Artificial Intelligence, ²⁶⁰University of Galway, ²⁶¹University of Houston, ²⁶²Eastern Institute of Technology (EIT), ²⁶³ENS Lyon, ²⁶⁴Czech Technical University in Prague, ²⁶⁵CISPA Helmholtz Center for Information Security, ²⁶⁶Universidad de Morón, ²⁶⁷Université Paris Cité and Sorbonne Université, ²⁶⁸Sheffield Hallam University, ²⁶⁹The New School, ²⁷⁰Max Planck Institute for Software Systems, ²⁷¹OpenAI, ²⁷²École Polytechnique, ²⁷³Modulo Research, ²⁷⁴Heidelberg University, ²⁷⁵La Trobe University, ²⁷⁶University of Yaoundé I, ²⁷⁷Lux Labs, ²⁷⁸University of Innsbruck, ²⁷⁹Nabu Technologies Inc, ²⁸⁰Chalmers University of Technology, ²⁸¹KTH Royal Institute of Technology, ²⁸²Unidade Local de Saúde de Lisboa Ocidental, ²⁸³Quotient AI, ²⁸⁴University of California, Irvine, ²⁸⁵University of Padua, ²⁸⁶Aalto University, ²⁸⁷Royal Veterinary College, ²⁸⁸The Future Paralegals of America, ²⁸⁹RMIT University, ²⁹⁰Universal Higher Education, ²⁹¹Eastlake High School, ²⁹²CSMSS Chh. Shahu College of Engineering, ²⁹³Central Mindanao University, ²⁹⁴University of Montreal, ²⁹⁵University of Bradford, ²⁹⁶Beni Suef University, ²⁹⁷Bogazici University, ²⁹⁸Mansoura University, ²⁹⁹Univerisity of Bristol, ³⁰⁰University of Oklahoma, ³⁰¹Jala University, ³⁰²Florida Atlantic University, ³⁰³CONICET, ³⁰⁴Universidad Tecnológica Nacional, ³⁰⁵Bournemouth University, ³⁰⁶University of Warwick, ³⁰⁷University of Alabama Huntsville, ³⁰⁸Van Andel Institute, ³⁰⁹University of Hertfordshire, ³¹⁰Central College, ³¹¹Sheffield Teaching Hospitals NHS Foundation Trust, ³¹²Nottingham Trent University, ³¹³Max Planck Institute for Intelligent Systems, ³¹⁴Outevsky Bespoke Dance Education, ³¹⁵University of Virginia, ³¹⁶Dartmouth College, ³¹⁷INESC Microsistemas e Nanotecnologias, ³¹⁸University of Minnesota, ³¹⁹Aligarh Muslim University, ³²⁰John Crane UK Ltd, ³²¹James Madison University, ³²²University of the Fraser Valley, ³²³Alan Turing Institute, ³²⁴Rice University, ³²⁵HUN-REN, ³²⁶Forschungszentrum Jülich

Introduction

Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve over 90% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce Humanity's Last Exam, a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. The dataset consists of 3,000 challenging questions across over a hundred subjects. We publicly release these questions, while maintaining a private test set of held out questions to assess model overfitting.

Compared against the saturation of some existing benchmarks, Humanity's Last Exam accuracy remains low across several frontier models, demonstrating its effectiveness for measuring advanced, closed-ended, academic capabilities.

Dataset

Humanity's Last Exam (HLE) is a global collaborative effort, with questions from nearly 1,000 subject expert contributors affiliated with over 500 institutions across 50 countries – comprised mostly of professors, researchers, and graduate degree holders.

Examples 1-2/8

Classics

Question:

Here is a representation of a Roman inscription, originally found on a tombstone. Provide a translation for the Palmyrene script.
A transliteration of the text is provided: RGYNᵓ BT ḤRY BR ᶜTᵓ ḤBL

Henry T

Merton College, Oxford

Ecology

Question:

Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.

Edward V

Massachusetts Institute of Technology

Samples of the diverse and challenging questions submitted to Humanity's Last Exam.

Quantitative Results

Accuracy. All frontier models achieve low accuracy on Humanity's Last Exam, highlighting significant room for improvement in narrowing the gap between current LLMs and expert-level academic capabilities on closed-ended questions.

Calibration Error. Given low performance on Humanity's Last Exam, models should be calibrated, recognizing their uncertainty rather than confidently provide incorrect answers, indicative of confabulation/hallucination. To measure calibration, we prompt models to provide both an answer and their confidence from 0% to 100%.

Model	Accuracy (%) ↑	Calibration Error (%) ↓
GPT-4o	3.3	92.5
Grok-2	3.8	93.2
Claude 3.5 Sonnet	4.3	88.9
Gemini Thinking	7.7	91.2
o1	9.1	93.4
DeepSeek-R1*	9.4	81.8
o3-mini (medium)*	10.5	92.0
o3-mini (high)*	13.0	93.2

*Model is not multi-modal, evaluated on text-only subset.

Discussion

Future Model Performance

While current LLMs achieve very low accuracy on Humanity's Last Exam, recent history shows benchmarks are quickly saturated -- with models dramatically progressing from near-zero to near-perfect performance in a short timeframe. Given the rapid pace of AI development, it is plausible that models could exceed 50% accuracy on HLE by the end of 2025. High accuracy on HLE would demonstrate expert-level performance on closed-ended, verifiable questions and cutting-edge scientific knowledge, but it would not alone suggest autonomous research capabilities or "artificial general intelligence." HLE tests structured academic problems rather than open-ended research or creative problem-solving abilities, making it a focused measure of technical knowledge and reasoning. HLE may be the last academic exam we need to give to models, but it is far from the last benchmark for AI.

Impact

By providing a clear measure of AI progress, Humanity's Last Exam creates a common reference point for scientists and policymakers to assess AI capabilities. This enables more informed discussions about development trajectories, potential risks, and necessary governance measures.

The New York Times

When A.I. Passes This Test, Look Out

The creators of a new test called 'Humanity's Last Exam' argue we may soon lose the ability to create tests hard enough for A.I. models.

Reuters

AI experts ready 'Humanity's Last Exam' to stump powerful tech

A team of technology experts issued a global call on Monday seeking the toughest questions to pose to artificial intelligence systems, which increasingly have handled popular benchmark tests like child's play.

Citation

For any inquiries or feedback, please contact us at agibenchmark@safe.ai

Submit feedback to questions in the dataset via this form

Humanity's Last Exam

Authors

Affiliations

Introduction

Dataset

Examples 1-2/8

Question:

Question:

Quantitative Results

Discussion

Future Model Performance

Impact

Related Articles

When A.I. Passes This Test, Look Out

AI experts ready 'Humanity's Last Exam' to stump powerful tech

Citation