ИИ будет оценивать ответы на открытые вопросы, а не тесты
Студенты в Техасе, сдающие на этой неделе государственные экзамены, будут участвовать в тестировании новой системы оценивания на основе искусственного интеллекта. Эта система в ближайшее время заменит большинство оценщиков-людей в регионе.
Техасское образовательное агентство (TEA) внедряет автоматическую систему оценки, которая использует обработку естественного языка для оценки ответов на открытые экзаменационные вопросы в рамках экзаменов STAAR. Агентство ожидает, что система сэкономит 15–20 млн долларов в год, к сожалению для многих людей, за счет сокращения штата специалистов, оценивающих эти самые экзамены. Правда, работа таких оценщиков временная, так что нельзя сказать, что ИИ в данном случае оставит людей совсем без работы. В этом году планируется нанять менее 2000 оценщиков по сравнению с 6000 в прошлом году.
Экзамены STAAR, о которых идёт речь, это экзамены для учащихся третьего и восьмого классов. Они концентрируются на понимании основной учебной программы. В прошлом году эти экзамены были существенно переработаны, чтобы включать меньше вопросов с несколькими вариантами ответов. Теперь дети получают в семь раз больше открытых вопросов, то есть таких вопросов, на которые нужно дать развёрнутый ответ своими словами, а не просто выбрать вариант из имеющихся. Само собой, такие ответы обычная машина проверить не может, поэтому временно нанимаются тысячи людей. ИИ же позволит заменить большую часть из них. По крайней мере, должен заменить, если текущий этап тестирования пройдёт успешно.
Система оценки была обучена с использованием 3000 уже проверенных людьми ответов на экзамены. Также были реализованы некоторые системы безопасности. В частности, четверть всех результатов, оцениваемых ИИ, будет затем повторно оцениваться людьми. Это же касается ответов, которые сбивают с толку систему искусственного интеллекта.
Также стоит сказать, что сейчас систему будут тестировать массово, но локально это уже делали в прошлом году, и тогда в округе наблюдался резкий рост количества ответов, получивших нулевой балл.