Прочие базы данных

все, что касается обмена базами данных, программы для работы с ними и пр.

Модераторы: konkar, deicide

Ответить
Аватара пользователя
sergeiii
профи
Сообщения: 210
Зарегистрирован: 30 ноя 2021, 15:23
Благодарил (а): 201 раз
Поблагодарили: 492 раза

Re: Прочие базы данных

Сообщение sergeiii »

кушайсуши.рф
-внутри два файла: один "полная версия" на 659к, второй мной почищенный от дублей и ненужных мне столбцов на 145к
пасс-рекомендованный
[External Link Removed for Guests]
Аватара пользователя
protey
профи
Сообщения: 55
Зарегистрирован: 03 дек 2021, 06:43
Благодарил (а): 204 раза
Поблагодарили: 300 раз

Re: Прочие базы данных

Сообщение protey »

росфинмониторинг 07.2024
архив RAR 5.0 321 КБ
2 txt файла: юр и физ лица
[External Link Removed for Guests]
пасс phreaker.info
ostrow
профи
Сообщения: 67
Зарегистрирован: 11 дек 2021, 22:04
Благодарил (а): 149 раз
Поблагодарили: 66 раз

Re: Прочие базы данных

Сообщение ostrow »

Чистка диска!
Cборка-РФ разное II (WinRAR-6.67 МБ).
Спойлер
●14798197.docx-Об исключении из резерва составов участковых комиссий Пензенской области -47 стр.
●gos_home.doc-Перечень государственных жилых помещений г. Сморгонь и Сморгонского района по состоянию на 01 апреля 2015 г., ... -8 стр.
●lostDocs.doc-Документы, утраченные российскими гражданами и поступившие в Генконсульство -9 стр.
●prigorodnye_marshruty_5_0.doc-РЕЕСТР МАРШРУТОВ МЕЖМУНИЦИПАЛЬНОГО СООБЩЕНИЯ НА ТЕРРИТОРИИ АСТРАХАНСКОЙ ОБЛАСТИ -69 стр.
●reestr_iskl.docx-Список лиц, исключенных из членов Всероссийского союза страховщиков -8 стр.
●Reestrstrakhovykhagentovibrokerov_2014.docx-Реестр страховых агентов и брокеров ОАО «ВостСибЖАСО» -8 стр.
●relnodes_1.doc-Предприятия, предоставляющие услуги сети Релком -161 КБ;
●relnodes_11.doc-Предприятия, предоставляющие услуги сети Релком -31 стр.
●spiski_na_poseleniya_starshiy_kurs_itog.docx -90 стр.
●spisokna2013.doc-СВОДНЫЙ СПИСОК молодых семей... в 2013 году по Ибресинскому району -81стр.
●sub_0.RTF-Постановление Администрации города Барнаула от 10 февраля 2010 г. N 501
"Об утверждении "Классификатора адресных объектов городского округа - города Барнаула Алтайского края" -29 стр.
●w153215.doc-ОБЩИЙ СПИСОК народных заседателей Игарского городского суда -33 стр.
●Выписка ООО Ж-8.docx-Выписка к Отчёту №ДЗ/10-13 об определении рыночной стоимости права требования... -126 стр.
●К-т_по_природопользованию_Сведения_о_доходах_за_2013_2_вариант.doc-Сведения о доходах, об ... служащих Санкт-Петербурга, ... -15 стр.
●Номер Ф И О владельца паспорта.rtf-Паспорта гражданина Российской Федерации, выданные в нарушение установленного порядка -14 стр.
●Отчёт 4 дебиторка.doc-Отчет об оценке №4 рыночной стоимости права требования ООО "Домоуправляющая компания Шахунского района" к юридическим и физическим лицам -91 стр.
●РЕЕСТР ТСЖ 24.03.2014 (сайт).doc-Перечень ТСЖ на территории Тульской области на 24.03.2014 г. -70 стр.
[External Link Removed for Guests]
Без пароля
Аватара пользователя
Olkaddott
профи
Сообщения: 158
Зарегистрирован: 14 авг 2022, 11:11
Благодарил (а): 54 раза
Поблагодарили: 703 раза

Re: Прочие базы данных

Сообщение Olkaddott »

kvartelia.ru парсинг, 10.5m
вроде как январь 2024
в паблик выложили

 Скрытый текст. Для просмотра нужно быть [Local Link Removed for Guests] и иметь сообщений: 3
Последний раз редактировалось Olkaddott 17 июл 2024, 04:16, всего редактировалось 1 раз.
Аватара пользователя
Olkaddott
профи
Сообщения: 158
Зарегистрирован: 14 авг 2022, 11:11
Благодарил (а): 54 раза
Поблагодарили: 703 раза

Re: Прочие базы данных

Сообщение Olkaddott »

m2bomber.com, парсинг 13.6m
2020
json + в csv перевел

 Скрытый текст. Для просмотра нужно быть [Local Link Removed for Guests] и иметь сообщений: 3
Аватара пользователя
Burg0mister
профи
Сообщения: 323
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1785 раз
Поблагодарили: 694 раза

Re: Прочие базы данных

Сообщение Burg0mister »

Доброе утро!
Недавно в паблик выложили trello в виде файла json весом в 20 с лишним гигабайт.
Сделал из него вытяжку необходимых мне столбцов {ФИО, Никнейм/ссылка, e-mail}. Хотел вытащить еще аватарки, но они уже похоже недоступны или у меня через прокси с тор не открылись.
Делюсь результатом.

ВАЖНО!
База в формате UTF-8, сделал так потому что имена некоторых пользователей содержат национальные символы. при переносе в кронос эти имена будут испорчены!

Техническая информация:
Файл: txt
Кодировка: UTF-8
Вес в архиве/распакованный: 258МБ/746МБ
Число строк: 15114657 с учетом шапки
Разделитель: вертикальная черта |

Что сделано:
-Вытащил только интересные для себя столбцы
-Перевел имена в юникод
-Убрал излишние пробелы
-Убрал дубли
-Для уменьшения размера файла убрал полную версию ссылки на профиль, оставил только ник.
Чтобы открыть профиль нужно приписать к нику полную ссылку, как указано в шапке.
Например для пользователя с ником bobbygrace пишем в браузере [External Link Removed for Guests]

В процессе обработки убрал вертикальные черты чтобы установить разделитель. Если гдето в именах они присутствовали. теперь их там нет :shock:

СЭМПЛ:
Спойлер

Код: [Local Link Removed for Guests]

ФИО|НИКНЕЙМ/URL (https://trello.com/AAA123)|E-MAIL
Bobby Grace|bobbygrace|[email protected]
Kevin Gessner|kevin|[email protected]
Rich Armstrong|richarmstrong|[email protected]
Brett|brett|[email protected]
bpollack|benjamin|[email protected]
Jude Allred|jude|[email protected]
ССЫЛКА:
Спойлер
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
phreaker.info
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
Аватара пользователя
лёва
профи
Сообщения: 224
Зарегистрирован: 02 дек 2021, 07:21
Благодарил (а): 491 раз
Поблагодарили: 775 раз

Re: Прочие базы данных

Сообщение лёва »

Казахстан, записей 32кк, текст UTF8, поля: ФИО, ДР, Документ, телефон (оч мало), Адрес.
Убрал явный мусор, имеются дубли %15-20, оставил, как правило это совпадение не полное (но по одному человеку), разница по полям - откуда прибыл (часто Афганистан) и адрес регистрации (возможно временная).
Актуальность, ХЗ, есть даты рождения и 2021г и 2015г, думайте сами, но в основном гораздо раннее.
Единственное, кто спец, прошу выправить и развернуть дату рождения в привычный вид.
рекомендованный
Спойлер
[External Link Removed for Guests]
Аватара пользователя
sergeiii
профи
Сообщения: 210
Зарегистрирован: 30 ноя 2021, 15:23
Благодарил (а): 201 раз
Поблагодарили: 492 раза

Re: Прочие базы данных

Сообщение sergeiii »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 08:39 Казахстан, записей 32кк, текст UTF8, поля: ФИО, ДР, Документ, телефон (оч мало), Адрес.
Убрал явный мусор, имеются дубли %15-20, оставил, как правило это совпадение не полное (но по одному человеку), разница по полям - откуда прибыл (часто Афганистан) и адрес регистрации (возможно временная).
Актуальность, ХЗ, есть даты рождения и 2021г и 2015г, думайте сами, но в основном гораздо раннее.
Единственное, кто спец, прошу выправить и развернуть дату рождения в привычный вид.
рекомендованный
Спойлер
[External Link Removed for Guests]
в кронесе данная база наверное будет бесполезна,т.к. потеряются "местные" символы в ФИО и найти человека будет проблематично
Аватара пользователя
Burg0mister
профи
Сообщения: 323
Зарегистрирован: 19 июл 2022, 17:07
Благодарил (а): 1785 раз
Поблагодарили: 694 раза

Re: Прочие базы данных

Сообщение Burg0mister »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 12:40 в кронесе данная база наверное будет бесполезна,т.к. потеряются "местные" символы в ФИО и найти человека будет проблематично
Часть имен потеряется, если не конвертировать с заменой на что-то подходящее. Там можно искать по номеру документа, телефону, в моей версии отдельно по email, можно по адресу, но база конечно сложная, не каждому подойдет. Многое оправдывает то что таких объемов базы по КЗ редко встречаются.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 08:39 Казахстан, записей 32кк, текст UTF8, поля: ФИО, ДР, Документ, телефон (оч мало), Адрес.
Убрал явный мусор, имеются дубли %15-20, оставил, как правило это совпадение не полное (но по одному человеку), разница по полям - откуда прибыл (часто Афганистан) и адрес регистрации (возможно временная).
Актуальность, ХЗ, есть даты рождения и 2021г и 2015г, думайте сами, но в основном гораздо раннее.
Единственное, кто спец, прошу выправить и развернуть дату рождения в привычный вид.
рекомендованный
Спойлер
[External Link Removed for Guests]
Жесткий файл :)
Это сборка из разных баз, частично экспорт из кроноса из-за чего там уже есть испорченные записи, которые были с символами юникода до кроноса.

Что сделано:
-Убрал около тысячи строк начинающихся с/и содержащих только знак вопроса и цифры
-Убрал часть строк испорченных кроносом и перенесенных в этот сборник {надо искать, там есть еще испорченные}
-Нормализовал даты рождения
-Немного нормализовал записи о документах {убрал пробелы и разделители}
-Постарался нормализовать часть номеров телефонов, но там беспорядок
-Изменил разделитель на вертикальную черту
-Устранил уехавшие поля {не везде правильно размещены данные, телефоны могут пересекаться с документами}
-Вывел в отдельный столбец Email {в некоторых строках там также может встретиться телефон или сайт}
-Удалил чуть менее 25 тысяч строк, в которых были только ФИО и больше ничего
-Удалил лишние пробелы, кавычки, знаки переноса строки и т.д.
-Удалил несколько десятков тысяч полных дублей {это стало возможным после приведения записей к единому формату}

Конечно работы в этой базе еще горы и она до сих пор сложна для обработки и использования.

Ссылка:
Спойлер
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
тот же, который в источнике.
Спойлер
Если на раздачи ставлю личный пароль - делюсь им безвозмездно, так же он есть и у администрации! Приму в дар БД с контактами, ФИО, адресами по СНГ/РФ. Интересуют: Современные ГИБДД, банки, блэклисты банков, телефоны, спецучет и т. п.
Аватара пользователя
Altron
профи
Сообщения: 474
Зарегистрирован: 23 фев 2022, 04:12
Благодарил (а): 554 раза
Поблагодарили: 929 раз

Re: Прочие базы данных

Сообщение Altron »

[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 21:37
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 12:40 в кронесе данная база наверное будет бесполезна,т.к. потеряются "местные" символы в ФИО и найти человека будет проблематично
Часть имен потеряется, если не конвертировать с заменой на что-то подходящее. Там можно искать по номеру документа, телефону, в моей версии отдельно по email, можно по адресу, но база конечно сложная, не каждому подойдет. Многое оправдывает то что таких объемов базы по КЗ редко встречаются.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]23 июл 2024, 08:39 Казахстан, записей 32кк, текст UTF8, поля: ФИО, ДР, Документ, телефон (оч мало), Адрес.
Убрал явный мусор, имеются дубли %15-20, оставил, как правило это совпадение не полное (но по одному человеку), разница по полям - откуда прибыл (часто Афганистан) и адрес регистрации (возможно временная).
Актуальность, ХЗ, есть даты рождения и 2021г и 2015г, думайте сами, но в основном гораздо раннее.
Единственное, кто спец, прошу выправить и развернуть дату рождения в привычный вид.
рекомендованный
Спойлер
[External Link Removed for Guests]
Жесткий файл :)
Это сборка из разных баз, частично экспорт из кроноса из-за чего там уже есть испорченные записи, которые были с символами юникода до кроноса.

Что сделано:
-Убрал около тысячи строк начинающихся с/и содержащих только знак вопроса и цифры
-Убрал часть строк испорченных кроносом и перенесенных в этот сборник {надо искать, там есть еще испорченные}
-Нормализовал даты рождения
-Немного нормализовал записи о документах {убрал пробелы и разделители}
-Постарался нормализовать часть номеров телефонов, но там беспорядок
-Изменил разделитель на вертикальную черту
-Устранил уехавшие поля {не везде правильно размещены данные, телефоны могут пересекаться с документами}
-Вывел в отдельный столбец Email {в некоторых строках там также может встретиться телефон или сайт}
-Удалил чуть менее 25 тысяч строк, в которых были только ФИО и больше ничего
-Удалил лишние пробелы, кавычки, знаки переноса строки и т.д.
-Удалил несколько десятков тысяч полных дублей {это стало возможным после приведения записей к единому формату}

Конечно работы в этой базе еще горы и она до сих пор сложна для обработки и использования.

Ссылка:
Спойлер
Скрытый текст
Для просмотра скрытого текста необходимо быть авторизованным пользователем.
Пароль:
тот же, который в источнике.
Для перевода с UTF8 на ANSI можно сделать таблицу перевода символов казахского языка на русcкий.
По Википедии, например.
Грубо, но плюс-минус для имен и фамилий работает.
P.S. Это для перевода в Кронос...
Ответить