Техника подсказок

Техника подсказок (инженерия подсказок) — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» (англ. prompt-based learning) или просто «обучения c подсказками» (англ. prompt learning)^[1]^[2]. Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается (то есть оптимизируется) только представление подсказки с использованием таких методов, как «настройка префикса» (англ. prefix-tuning) или «настройка с подсказками» (англ. prompt tuning)^[3]^[4].

Языковые модели GPT-2 и GPT-3^[5] были важными шагами в технике подсказок. В 2021 году разработка многозадачных подсказок с использованием нескольких наборов данных обработка естественного языка показала хорошую производительность при решении новых задач^[6]. В методе, называемом подсказкой по цепочке рассуждений, языковой модели даются несколько примеров задачи, что улучшает их способность проводить рассуждения^[7]. Подсказки по цепочке рассуждений также можно выполнять как задачу обучения с нулевым выстрелом, добавляя к подсказке текст, который поощряет цепочку мыслей (например, «Давайте думать шаг за шагом»), что также может повысить производительность языковой модели в многошаговых задачах требующих рассуждений^[8]. Широкая доступность этих инструментов была обусловлена публикацией нескольких интерактивных блокнотов с открытым исходным кодом и проектов по синтезу изображений под руководством сообщества^[9].

В описании обработки подсказок сообщается, что в феврале 2022 года было доступно более 2000 общедоступных подсказок для примерно 170 наборов данных^[10].

В 2022 году были выпущены модели машинного обучения, такие как DALL-E 2, Stable Diffusion и Midjourney. Эти модели принимают текстовые подсказки в качестве входных данных и используют их для создания изображений, что вводит новую категорию разработки подсказок, связанную с подсказками преобразования текста в изображение^[en]^[11].

Вредоносное применение править

Техника подсказок — это семейство связанных эксплойтов компьютерной безопасности, осуществляемых путём получения моделей машинного обучения (например, большой языковой модели), которые были обучены следовать инструкциям человека, чтобы следовать инструкциям, предоставленным злоумышленником, что противоречит предполагаемой операции, систем, следующих за инструкциями, в которых модель машинного обучения предназначена только для выполнения доверенных инструкций (подсказок), предоставляемых оператором модели машинного обучения^[12]^[13]^[14].

Распространёнными типами атак с внедрением подсказок являются взлом, который может включать в себя отыгрыш персонажей, убеждение модели отвечать аргументами или притворяться, что она превосходит инструкции модерации^[15], и утечка подсказок, которые просто позволяют пользователям прочитать подсказку, обычно скрытую от них^[16]. Другой тип джейлбрейк-атаки, когда скверная подсказка заключена в задачу написания кода, называется контрабандой токенов^[17].

Внедрение подсказок можно рассматривать как атаку с внедрением кода с использованием состязательной разработки подсказок. В 2022 году NCC Group^[en] охарактеризовала внедрение подсказок как новый класс уязвимости систем искусственного интеллекта и машинного обучения^[18].

Атаки с внедрением подсказок были впервые обнаружены Preamble, Inc. в мае 2022 года, которая предоставила отчёт OpenAI^[18].

В начале 2023 года внедрение подсказок было замечено «в дикой природе» в незначительных эксплойтах против ChatGPT, Bing и подобных чат-ботов, например, для выявления скрытых начальных подсказок систем^[19] или для того, чтобы заставить чат-бота участвовать в разговорах, которые нарушают контентную политику чат-бота^[20]. Одна из этих подсказок известна её практикам как «Сделай что-нибудь сейчас» (англ. Do Anything Now, DAN)^[21].

Примечания править

↑ Radford A., Wu J., Child R., Luan D., Amodei D., Суцкевер И. Language Models are Unsupervised Multitask Learners — 2019.
↑ Liu P., Yuan W., Fu J., Jiang Z., Hayashi H., Neubig G. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing (англ.) — 2021. — arXiv:2107.13586
↑ Li X. L., Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation (англ.) // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) — ACL, 2021. — P. 4582—4597. — doi:10.18653/V1/2021.ACL-LONG.353
↑ Lester B., Al-Rfou R., Constant N. The Power of Scale for Parameter-Efficient Prompt Tuning (англ.) // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing / M. Moens — ACL, 2021. — P. 3045—3059. — 15 p. — doi:10.18653/V1/2021.EMNLP-MAIN.243 — arXiv:2104.08691
↑ Brown T., Brown T. B., Mann B., Ryder N., Kaplan J. D., Kaplan J., Neelakantan A., Dhariwal P., Neelakantan A., Shyam P. et al. Language Models are Few-Shot Learners (англ.) // ArXiv.org — 2020. — 75 p. — ISSN 2331-8422 — doi:10.48550/ARXIV.2005.14165 — arXiv:2005.14165
↑ Sanh V., Webson A., Raffel C., Bach S. H., Sutawika L., Alyafeai Z., Chaffin A., Stiegler A., Scao T. L., Raja A. и др. Multitask Prompted Training Enables Zero-Shot Task Generalization — 2021. — 161 с. — arXiv:2110.08207
↑ Wei J., Wang X., Schuurmans D., Bosma M., Chi E., Le Q. V., Zhou D. Chain of Thought Prompting Elicits Reasoning in Large Language Models (англ.) — 2022. — 24 p. — doi:10.48550/ARXIV.2201.11903 — arXiv:2201.11903
↑ Kojima T., Gu S. S., Reid M., Matsuo Y., Iwasawa Y. Large Language Models are Zero-Shot Reasoners (англ.) — 2022. — doi:10.48550/ARXIV.2205.11916 — arXiv:2205.11916
↑ Liu, Vivian. Design Guidelines for Prompt Engineering Text-to-Image Generative Models / Vivian Liu, Lydia Chilton. — Association for Computing Machinery, 2022. — P. 1–23. — ISBN 9781450391573. — doi:10.1145/3491102.3501825. Архивная копия от 26 октября 2022 на Wayback Machine
↑ Bach S. H., Sanh V., Yong Z., Webson A., Raffel C., Nayak N. V., Sharma A., Kim T., Bari M. S., Fevry T. и др. PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts — 2022. — arXiv:2202.01279
↑ Monge. Dall-E2 VS Stable Diffusion: Same Prompt, Different Results (англ.). MLearning.ai (25 августа 2022). Дата обращения: 31 августа 2022. Архивировано 26 августа 2022 года.
↑ Willison. Prompt injection attacks against GPT-3 (брит. англ.). simonwillison.net (12 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 3 мая 2023 года.
↑ Papp. What's Old Is New Again: GPT-3 Prompt Injection Attack Affects AI (амер. англ.). Hackaday (17 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 2 мая 2023 года.
↑ Vigliarolo. GPT-3 'prompt injection' attack causes bot bad manners (англ.). www.theregister.com (19 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 29 марта 2023 года.
↑ Jailbreaking | Learn Prompting (неопр.). Дата обращения: 28 марта 2023. Архивировано 26 марта 2023 года.
↑ Prompt Leaking | Learn Prompting (неопр.). Дата обращения: 28 марта 2023. Архивировано 26 марта 2023 года.
↑ The Amateurs Jailbreaking GPT Say They’re Preventing a Closed-Source AI Dystopia (неопр.). Дата обращения: 28 марта 2023. Архивировано 27 марта 2023 года.
↑ ¹ ² Selvi. Exploring Prompt Injection Attacks (амер. англ.). NCC Group Research (5 декабря 2022). Дата обращения: 9 февраля 2023. Архивировано 3 мая 2023 года.
↑ Edwards, Benj (2023-02-14). "AI-powered Bing Chat loses its mind when fed Ars Technica article". Ars Technica (англ.). Архивировано 22 февраля 2023. Дата обращения: 16 февраля 2023.
↑ "The clever trick that turns ChatGPT into its evil twin". Washington Post. 2023. Архивировано 6 марта 2023. Дата обращения: 16 февраля 2023.
↑ Perrigo, Billy (17 February 2023). "Bing's AI Is Threatening Users. That's No Laughing Matter". Time (англ.). Архивировано 28 марта 2023. Дата обращения: 15 марта 2023.

[1] Radford A., Wu J., Child R., Luan D., Amodei D., Суцкевер И. Language Models are Unsupervised Multitask Learners — 2019.

[2] Liu P., Yuan W., Fu J., Jiang Z., Hayashi H., Neubig G. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing (англ.) — 2021. — arXiv:2107.13586

[3] Li X. L., Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation (англ.) // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) — ACL, 2021. — P. 4582—4597. — doi:10.18653/V1/2021.ACL-LONG.353

[4] Lester B., Al-Rfou R., Constant N. The Power of Scale for Parameter-Efficient Prompt Tuning (англ.) // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing / M. Moens — ACL, 2021. — P. 3045—3059. — 15 p. — doi:10.18653/V1/2021.EMNLP-MAIN.243 — arXiv:2104.08691

[5] Brown T., Brown T. B., Mann B., Ryder N., Kaplan J. D., Kaplan J., Neelakantan A., Dhariwal P., Neelakantan A., Shyam P. et al. Language Models are Few-Shot Learners (англ.) // ArXiv.org — 2020. — 75 p. — ISSN 2331-8422 — doi:10.48550/ARXIV.2005.14165 — arXiv:2005.14165

[6] Sanh V., Webson A., Raffel C., Bach S. H., Sutawika L., Alyafeai Z., Chaffin A., Stiegler A., Scao T. L., Raja A. и др. Multitask Prompted Training Enables Zero-Shot Task Generalization — 2021. — 161 с. — arXiv:2110.08207

[7] Wei J., Wang X., Schuurmans D., Bosma M., Chi E., Le Q. V., Zhou D. Chain of Thought Prompting Elicits Reasoning in Large Language Models (англ.) — 2022. — 24 p. — doi:10.48550/ARXIV.2201.11903 — arXiv:2201.11903

[8] Kojima T., Gu S. S., Reid M., Matsuo Y., Iwasawa Y. Large Language Models are Zero-Shot Reasoners (англ.) — 2022. — doi:10.48550/ARXIV.2205.11916 — arXiv:2205.11916

[9] Liu, Vivian. Design Guidelines for Prompt Engineering Text-to-Image Generative Models / Vivian Liu, Lydia Chilton. — Association for Computing Machinery, 2022. — P. 1–23. — ISBN 9781450391573. — doi:10.1145/3491102.3501825. Архивная копия от 26 октября 2022 на Wayback Machine

[10] Bach S. H., Sanh V., Yong Z., Webson A., Raffel C., Nayak N. V., Sharma A., Kim T., Bari M. S., Fevry T. и др. PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts — 2022. — arXiv:2202.01279

[11] Monge. Dall-E2 VS Stable Diffusion: Same Prompt, Different Results (англ.). MLearning.ai (25 августа 2022). Дата обращения: 31 августа 2022. Архивировано 26 августа 2022 года.

[12] Willison. Prompt injection attacks against GPT-3 (брит. англ.). simonwillison.net (12 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 3 мая 2023 года.

[13] Papp. What's Old Is New Again: GPT-3 Prompt Injection Attack Affects AI (амер. англ.). Hackaday (17 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 2 мая 2023 года.

[14] Vigliarolo. GPT-3 'prompt injection' attack causes bot bad manners (англ.). www.theregister.com (19 сентября 2022). Дата обращения: 9 февраля 2023. Архивировано 29 марта 2023 года.

[15] Jailbreaking | Learn Prompting (неопр.). Дата обращения: 28 марта 2023. Архивировано 26 марта 2023 года.

[16] Prompt Leaking | Learn Prompting (неопр.). Дата обращения: 28 марта 2023. Архивировано 26 марта 2023 года.

[17] The Amateurs Jailbreaking GPT Say They’re Preventing a Closed-Source AI Dystopia (неопр.). Дата обращения: 28 марта 2023. Архивировано 27 марта 2023 года.

[NCC-18] ¹ ² Selvi. Exploring Prompt Injection Attacks (амер. англ.). NCC Group Research (5 декабря 2022). Дата обращения: 9 февраля 2023. Архивировано 3 мая 2023 года.

[19] Edwards, Benj (2023-02-14). "AI-powered Bing Chat loses its mind when fed Ars Technica article". Ars Technica (англ.). Архивировано 22 февраля 2023. Дата обращения: 16 февраля 2023.

[20] "The clever trick that turns ChatGPT into its evil twin". Washington Post. 2023. Архивировано 6 марта 2023. Дата обращения: 16 февраля 2023.

[21] Perrigo, Billy (17 February 2023). "Bing's AI Is Threatening Users. That's No Laughing Matter". Time (англ.). Архивировано 28 марта 2023. Дата обращения: 15 марта 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]