DeepSeek: доступный конкурент ChatGPT?

Привет! Приготовил для вас максимально подробный отчет о моем погружении в мир DeepSeek. Расскажу о каждом шаге, настройках, ошибках и решениях, с которыми столкнулся.
Этап 1: DeepSeek V3 на сайте deepseek.com – первое впечатление
- Регистрация и интерфейс: Сайт deepseek.com приятно удивил простотой. Моментальная регистрация через Google Account – большой плюс. Интерфейс интуитивно понятен, напоминает ChatGPT.
- Тестирование с японским языком: Я использовал подготовленный набор подсказок, ориентированных на изучение японского языка. Это позволило проверить способности модели к переводу, пониманию контекста и многошаговым диалогам. DeepSeek V3 справился достойно, хотя и не идеально.
- Загрузка документов: Возможность загружать несколько документов одновременно – огромное преимущество. Я загрузил несколько текстовых файлов с грамматическими правилами и примерами предложений. Модель успешно использовала информацию из загруженных файлов.
- Распознавание текста (OCR): Я проверил OCR, загрузив фотографию японского меню. DeepSeek V3 распознал большинство иероглифов и дал довольно точный перевод. Это впечатляет, учитывая сложность японской письменности.
- Недостатки: Главный недостаток, который я заметил, – не всегда точное следование инструкциям. В одном из тестов я попросил модель не давать готовый ответ, а только объяснить ход решения. DeepSeek V3 проигнорировал эту инструкцию и сразу выдал ответ. Это говорит о том, что модель менее склонна к строгому следованию инструкциям по сравнению с Claude или ChatGPT.
Этап 2: Локальный запуск DeepSeek R1 с Ollama – погружение в технические детали
- Выбор модели: Я выбрал 7-миллиардную версию DeepSeek R1, так как мой AI PC Dev Kit с 32 ГБ RAM вряд ли справился бы с более крупными моделями.
- Ollama: Использование Ollama оказалось простым и эффективным. Команда ollama pull deepseek/r1-7b скачала модель за разумное время.
- Тестирование: Модель работала стабильно, скорость генерации была приемлемой. Заметной нагрузки на CPU не наблюдалось, что говорит об эффективности ggf формата.
- Эксперимент с 14-миллиардной моделью: Я решил попробовать запустить 14-миллиардную версию. Загрузка прошла успешно, но компьютер начал "гудеть" от нагрузки. Скорость генерации заметно снизилась.
- Выводы: Ollama и ggf формат – отличное решение для локального запуска DeepSeek R1. Однако, размер модели критически важен для производительности.
Этап 3: LM Studio – агентное поведение и борьба за ресурсы
- Установка и интерфейс: Установка LM Studio прошла без проблем. Темная тема – приятный бонус.
- Визуализация рассуждений: LM Studio показывает, как модель "думает", выделяя промежуточные шаги и обоснования. Это очень полезно для понимания работы модели.
- Перезагрузки: На моем AI PC LM Studio вызывал перезагрузки из-за нехватки ресурсов. Модель с агентным поведением оказалась слишком требовательной.
- Настройка параметров: Я экспериментировал с настройками LM Studio:
Уменьшил контекстное окно.
Отключил кеширование модели в памяти.
Снизил количество потоков CPU. - Результат настройки: После настройки LM Studio начал работать стабильно, хотя скорость генерации оставалась ниже, чем на моем основном компьютере.
Этап 4: Hugging Face Transformers – прямая работа с моделью и ошибки памяти
- RTX 4080: На основном компьютере с RTX 4080 LM Studio работал без перезагрузок.
- Transformers pipeline: Я решил использовать pipeline из Hugging Face Transformers для более гибкой работы с моделью.
- Ошибка "Cuda out of memory": При запуске pipeline возникла ошибка Cuda out of memory. Это связано с тем, что модель, скачанная через Hugging Face, не оптимизирована для CPU и требует большого объема видеопамяти.
- Решение проблемы: Перезагрузка компьютера и закрытие ресурсоемких приложений, таких как OBS, освободили достаточно памяти для запуска модели.
- Повторная ошибка: При повторном запуске pipeline ошибка появилась снова. Это указывает на то, что даже RTX 4080 не всегда достаточно для комфортной работы с большими моделями без оптимизации.
- nvidia-smi: Утилита nvidia-smi показала 100% загрузку GPU и почти полное использование видеопамяти.
Общие выводы и рекомендации:
- Оптимизированные модели: Использование оптимизированных моделей (ggf формат) существенно снижает требования к ресурсам.
- AI PC: AI PC перспективны, но пока не могут полностью заменить дискретные GPU для работы с большими LLM.
- Распределенные вычисления: Для работы с очень большими моделями необходимы распределенные вычисления на нескольких машинах.
- Мониторинг ресурсов: Важно следить за загрузкой CPU, GPU и использованием памяти при работе с LLM. Инструменты типа nvidia-smi и системного монитора помогут выявить проблемы с ресурсами.
- Квантизация: Квантизация – перспективный метод для уменьшения требований к памяти, но может привести к снижению качества генерации.
Этот подробный отчет, надеюсь, даст вам более полное представление о моих экспериментах с DeepSeek и поможет вам в вашей работе с большими языковыми моделями.
0 comments
Post a new comment
Post a new comment