SWE-rebench leaderboard update: GLM-5.2, Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B and more + improved UI

Reddit r/LocalLLaMA 07/01/26, 02:53 PM News

leaderboard benchmarking swe-bench coding software-engineering models

Summary

SWE-rebench leaderboard updated with new models (GLM-5.2, Qwen3.6, Gemma 4 31B, etc.) and an improved UI, showing performance rankings on software engineering tasks.

No content available

Original Article

View Cached Full Text

Cached at: 07/01/26, 04:17 PM

# SWE-rebench Leaderboard Source: [https://swe-rebench.com/](https://swe-rebench.com/) 162\.7%± 0\.91% 70\.0%$2\.252,120,66090\.0% cached 261\.6%± 0\.64% 72\.7%$1\.841,866,49791\.6% cached 360\.4%± 1\.37% 71\.8%$1\.751,898,13192\.5% cached 459\.6%± 1\.98% 72\.7%$1\.741,878,24893\.6% cached 5OpenAIgpt\-5\.5\-2026\-04\-23\-medium 58\.9%± 0\.78% 70\.0%$0\.98708,41883\.5% cached 656\.5%± 1\.20% 67\.3%$2\.022,479,38795\.3% cached 7OpenAIgpt\-5\.4\-2026\-03\-05\-medium 54\.9%± 1\.02% 70\.9%$0\.60834,45283\.5% cached 853\.1%± 1\.45% 66\.4%$1\.321,526,13594\.2% cached 953\.0%± 0\.53% 64\.5%$0\.231,031,65398\.7% cached 1051\.3%± 0\.55% 63\.6%$1\.292,644,57795\.6% cached 1151\.1%± 1\.20% 66\.4%$0\.751,545,44580\.1% cached 1251\.1%± 1\.13% 71\.8%$0\.752,623,45687\.0% cached 1350\.7%± 0\.93% 65\.5%$0\.942,664,00191\.8% cached 1449\.5%± 0\.98% 61\.8%$0\.771,848,59375\.7% cached 1547\.8%± 1\.37% 60\.9%$1\.531,828,64993\.6% cached 1646\.5%± 1\.27% 64\.5%$0\.612,466,97790\.4% cached 1745\.6%± 1\.27% 67\.3%$1\.066,885,81893\.5% cached 1842\.7%± 1\.29% 61\.8%$0\.222,247,89176\.9% cached 1942\.4%± 0\.84% 61\.8%$0\.122,586,99888\.6% cached 2038\.4%± 0\.97% 57\.3%$0\.072,996,07795\.5% cached 2138\.2%± 0\.86% 59\.1%$0\.392,256,18286\.4% cached 2236\.5%± 0\.45% 50\.9%$0\.561,875,62414\.2% cached 2333\.8%± 0\.93% 54\.5%$0\.182,229,92578\.4% cached 2416\.5%± 1\.13% 37\.3%$0\.322,238,42069\.6% cached 25N/AN/AN/AN/A26N/AN/AN/AN/A27N/AN/AN/AN/A28N/AN/AN/AN/A29N/AN/AN/AN/A30N/AN/AN/AN/A31N/AN/AN/AN/A32N/AN/AN/AN/A33N/AN/AN/AN/A34N/AN/AN/AN/A35N/AN/AN/AN/A36MistralDevstral\-2\-123B\-Instruct\-2512 N/AN/AN/AN/A37MistralDevstral\-Small\-2\-24B\-Instruct\-2512 N/AN/AN/AN/A38N/AN/AN/AN/A39N/AN/AN/AN/A40N/AN/AN/AN/A41N/AN/AN/AN/A42N/AN/AN/AN/A43N/AN/AN/AN/A44Geminigemini\-2\.5\-flash\-preview\-05\-20 no\-thinking N/AN/AN/AN/A45Geminigemini\-2\.5\-flash\-preview\-05\-20 no\-thinking N/AN/AN/AN/A46N/AN/AN/AN/A47N/AN/AN/AN/A48N/AN/AN/AN/A49N/AN/AN/AN/A50N/AN/AN/AN/A51N/AN/AN/AN/A52N/AN/AN/AN/A53N/AN/AN/AN/A54N/AN/AN/AN/A55N/AN/AN/AN/A56N/AN/AN/AN/A57N/AN/AN/AN/A58N/AN/AN/AN/A59N/AN/AN/AN/A60N/AN/AN/AN/A61N/AN/AN/AN/A62N/AN/AN/AN/A63OpenAIgpt\-5\-mini\-2025\-08\-07\-high N/AN/AN/AN/A64OpenAIgpt\-5\-mini\-2025\-08\-07\-medium N/AN/AN/AN/A65N/AN/AN/AN/A66N/AN/AN/AN/A67OpenAIgpt\-5\.2\-2025\-12\-11\-medium N/AN/AN/AN/A68N/AN/AN/AN/A69N/AN/AN/AN/A70N/AN/AN/AN/A71N/AN/AN/AN/A72N/AN/AN/AN/A73N/AN/AN/AN/A74N/AN/AN/AN/A75N/AN/AN/AN/A76N/AN/AN/AN/A77N/AN/AN/AN/A78N/AN/AN/AN/A79N/AN/AN/AN/A80N/AN/AN/AN/A81N/AN/AN/AN/A82N/AN/AN/AN/A83N/AN/AN/AN/A84MetaLlama\-4\-Maverick\-17B\-128E\-Instruct N/AN/AN/AN/A85MetaLlama\-4\-Scout\-17B\-16E\-Instruct N/AN/AN/AN/A86N/AN/AN/AN/A87N/AN/AN/AN/A88N/AN/AN/AN/A89N/AN/AN/AN/A90N/AN/AN/AN/A91N/AN/AN/AN/A92N/AN/AN/AN/A93QwenQwen2\.5\-Coder\-32B\-Instruct N/AN/AN/AN/A94N/AN/AN/AN/A95QwenQwen3\-235B\-A22B no\-thinking N/AN/AN/AN/A96N/AN/AN/AN/A97QwenQwen3\-235B\-A22B\-Instruct\-2507 N/AN/AN/AN/A98QwenQwen3\-235B\-A22B\-Thinking\-2507 N/AN/AN/AN/A99QwenQwen3\-30B\-A3B\-Instruct\-2507 N/AN/AN/AN/A100QwenQwen3\-30B\-A3B\-Thinking\-2507 N/AN/AN/AN/A101N/AN/AN/AN/A102N/AN/AN/AN/A103N/AN/AN/AN/A104QwenQwen3\-Coder\-30B\-A3B\-Instruct N/AN/AN/AN/A105QwenQwen3\-Coder\-480B\-A35B\-Instruct N/AN/AN/AN/A106N/AN/AN/AN/A107QwenQwen3\-Next\-80B\-A3B\-Instruct N/AN/AN/AN/A108N/AN/AN/AN/A109N/AN/AN/AN/A110N/AN/AN/AN/A111N/AN/AN/AN/A

SWE-rebench leaderboard update: GLM-5.2, Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B and more + improved UI

Similar Articles

I tested Qwen3.6-27B, Qwen3.6-35B-A3B, Qwen3.5-27B and Gemma 4 on the same real architecture-writing task on an RTX 5090

Qwen3.6-35B-A3B and 9B are officially on the public Terminal-Bench 2.0 leaderboard!

gemma-4-12b-it vs Qwen3.5-9B on shared benchmarks: Qwen is overall winner beating gemma in 5/8 benchmarks despite a smaller footprint

Gemma 4 31B's competence surprised me

Qwen 3.7 Max scores 60.6% on SWE-Bench Pro

Submit Feedback

Similar Articles

I tested Qwen3.6-27B, Qwen3.6-35B-A3B, Qwen3.5-27B and Gemma 4 on the same real architecture-writing task on an RTX 5090

Qwen3.6-35B-A3B and 9B are officially on the public Terminal-Bench 2.0 leaderboard!

gemma-4-12b-it vs Qwen3.5-9B on shared benchmarks: Qwen is overall winner beating gemma in 5/8 benchmarks despite a smaller footprint
Qwen3.5-9B outperforms gemma-4-12b-it on 5 of 8 benchmarks despite having a smaller footprint, with gemma only slightly better at coding.

Gemma 4 31B's competence surprised me

Qwen 3.7 Max scores 60.6% on SWE-Bench Pro
Qwen 3.7 Max achieves a score of 60.6% on SWE-Bench Pro, demonstrating competitive performance on software engineering tasks.