Страница 17 из 96
Re: Прочие базы данных
Добавлено: 24 июл 2022, 02:12
Burg0mister
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
разное из сети
Добавлено: 24 июл 2022, 07:25
Weggio894
nadpo.ru (Национальная академия дополнительного профессионального образования)
► Показать
формат: sql
размер: 267 Mb
актуальность: 15.05.2022
[External Link Removed for Guests]
poryadok.ru (Порядок.ру, интернет-магазин)
► Показать
формат: txt
размер: 69 Mb
актуальность: 06.2022
[External Link Removed for Guests]
shopgun-users-filtered (клиенты оружейного магазина)
► Показать
формат: csv
размер: 6 Mb
актуальность: unknown
[External Link Removed for Guests]
svarcka.ru (Магазин «Всё Для Сварки»)
► Показать
формат: sql
размер: 1 Mb
актуальность: 01.2022
[External Link Removed for Guests]
Re: Прочие базы данных
Добавлено: 25 июл 2022, 12:27
tarelka
Спасибо за труд. Можно пояснить - в контрагентах есть порядка 3млн строк, где не один мобильный указан, а несколько в формате типа YAML. У меня в итоге 29М. У вас 26М. Где логическая ошибка? Или Вы не разносили YAML на несколько записей, а оставили в одной?
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]24 июл 2022, 02:12
Дополнение к посту выше!!!
Вот потихоньку подгружается СДЭК-2
Отличия от оригинала:
Оригинал весил в районе 33-35Гб, моя версия 4.5Гб
В оригинале, как и у СДЭК-1, один из массивов данных разделён на два фрагмента, с номерами и с прочими данными, их тоже склеил в один.
По количеству строк:
В Контрагентах осталось 26 миллионов
В основном файле - 41.5
В плане чистки и подробностей - там всё то же самое, что в прошлом посте у СДЭК-1.
Дубли, явно ложные номера, некоторые тестовые записи - убраны.
Осталось ещё много лишнего.
ССЫЛКА НА АРХИВ:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Re: Прочие базы данных
Добавлено: 25 июл 2022, 21:46
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]25 июл 2022, 12:27
Спасибо за труд. Можно пояснить - в контрагентах есть порядка 3млн строк, где не один мобильный указан, а несколько в формате типа YAML. У меня в итоге 29М. У вас 26М. Где логическая ошибка? Или Вы не разносили YAML на несколько записей, а оставили в одной?
Хороший вопрос!

Если правильно помню - они должны остаться в одной записи. Но нужно учитывать, что обработкой баз я начал заниматься относительно недавно, поэтому вполне мог допустить ошибки, которые привели к потере информации {очень надеюсь, что это не так!}

Либо проблема может быть в источнике, который, возможно, уже был частично зачищен. Например, его могли опубликовать жители Украины с уже убранной частью данных, такое, припоминаю, было с их раздачей одного из суши-ресторанов. Если найдёте у себя такие множественные записи - можем сверить с моей версией, как эти номера выглядят и есть ли они у меня вообще.
Re: Прочие базы данных
Добавлено: 25 июл 2022, 21:59
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]22 июл 2022, 20:53
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Хочу обратить внимание форумчан на то, что в соседней ветке форума есть раздача от
AKPM Основное отличие его версии - там к аккаунтам привязано много почты, но нет комментариев. Строк у него чуть меньше. Почта не везде корректно привязана к аккаунтам {но это, похоже, проблема самого сайта}.
Если Вам нужна база именно для деанонов и пробивов - версия
AKPM будет
компактнее и совершеннее! Для себя слил свою и его версию, получился файл в котором есть и почта и комментарии, чуть больше строк, меньше тестовых записей. Получается около 55 тысяч строк, из них 6 тысяч без привязанной почты {хотя она похоже есть у них}, потому что они изначально у меня кривые были. Сам файл стал сложнее и тяжелее.
Re: Прочие базы данных
Добавлено: 25 июл 2022, 22:21
Burg0mister
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Re: Прочие базы данных
Добавлено: 26 июл 2022, 09:41
Antonv
[External Link Removed for Guests] перестал искать. Ищет только по списку публичных людей. Кто-нибудь знает, это где-то исправлено? Файлы их скачал еще когда сам сайт работал, сейчас попытался сделать локальный сервер, но такая же история
Re: Прочие базы данных
Добавлено: 26 июл 2022, 12:39
Leo666
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]26 июл 2022, 09:41
[External Link Removed for Guests] перестал искать. Ищет только по списку публичных людей. Кто-нибудь знает, это где-то исправлено? Файлы их скачал еще когда сам сайт работал, сейчас попытался сделать локальный сервер, но такая же история
У них скрипт "покривел". Надо искать для локального сервера старые версии
Re: Прочие базы данных
Добавлено: 26 июл 2022, 14:52
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]26 июл 2022, 12:39
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]26 июл 2022, 09:41
[External Link Removed for Guests] перестал искать. Ищет только по списку публичных людей. Кто-нибудь знает, это где-то исправлено? Файлы их скачал еще когда сам сайт работал, сейчас попытался сделать локальный сервер, но такая же история
У них скрипт "покривел". Надо искать для локального сервера старые версии
Выкачивал образ сайта 26 июня этого года. Прилагаю файлы папки webapp. Есть и их базы, но они даже в архиве весят 15ГБ, если нет возможности с других источников выкачать - могу залить на обменник. Работоспособность не проверял, по идее - если скачать у них базы и приложить мою копию сайта - должно работать.
ССЫЛКА НА АРХИВ:
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
ПАРОЛЬ:
phreaker.info
Re: CDEK.RU, новый слив, 13.07.2022
Добавлено: 26 июл 2022, 18:20
btrwz
Такой вопрос к тем, кто занимается CDEK-2. Кто-нибудь отправителей и получателей пытался слить в одну строку (файл clients)? Смогли ли как-то выйти за пределы вероятности точного совпадения отправителя-получателя в 90-95% (проблема - из-за дибильной настройки сервера БД присвоения номеров не резервируется, а идет по порядку)? Желательно в личку, т.к. ответы породят вопросы, а смысла засорять ветку нет.