Страница 12 из 43

Re: Прочие базы данных

Добавлено: 15 сен 2024, 16:34
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 сен 2024, 06:59 Всем привет, подскажите, чем можно собрать такое кол-во файлов в 1
imho, единственно правильным способом будет предложенный SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]13 сен 2024, 10:54 copy *.csv all.csv
все прочие могут привести к появлению в результирующем файле нечитаемых символов или ? в строках

другой вопрос, что полученный файл будет грузить ресурсы при чтении и обработке, данные стоит разбить на части, если не по регионам, то по хотя бы по размеру
Так стояла задача скопировать ВСЕ файлы csv в один.
Если нужно скопировать несколько файлов в один, то делаем так:
copy 1.csv+2.csv+3.csv 123.csv
В файле 123.csv будет скопировано содержимое файлов 1.csv, 2.csv и 3.csv.

Если нужно рассортировать по регионам:
findstr /M "Nigeria" *.csv > nigeria.txt

В файле nigeria.txt будет список файлов, где встречается слово "Nigeria", например:
23.csv
47.csv
91.csv

В любом редакторе в файле nigeria.txt заменяем знак переноса строки на "+":
23.csv+47.csv+91.csv
и редактируем получившуюся строку:
copy 23.csv+47.csv+91.csv Nigeria_linkedin.txt
меняем расширение файла nigeria.txt на bat или cmd и запускаем.
В получившимся файле Nigeria_linkedin.txt будут товарищи негры из Nigeria (тамбовский волк им товарищ).

Re: Прочие базы данных

Добавлено: 15 сен 2024, 16:36
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 08:28
Офтопик
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41 единственно правильным способом будет
научиться пользоваться линуксом, где есть простые cat, cut, sed и awk которые закрывают любые вопросы с обработкой текстовых данных любого размера
Все уже украдено придумано до нас (С).
Есть порт утилит unix под Windows:
[External Link Removed for Guests]
[External Link Removed for Guests]
Сам пользуюсь sed под виндой для поиска-замены в больших текстовых файлах.

Re: Прочие базы данных

Добавлено: 15 сен 2024, 16:39
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 10:18
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 08:28
Офтопик
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]14 сен 2024, 13:41 единственно правильным способом будет
научиться пользоваться линуксом, где есть простые cat, cut, sed и awk которые закрывают любые вопросы с обработкой текстовых данных любого размера
Я под виндой cygwin использую. Очень удобно
В комплект не только Cygwin, но и MSYS2, Active Perl, MINGW входят unix утилиты.

Re: Прочие базы данных

Добавлено: 16 сен 2024, 08:08
ttm
Прошу уважаемое сообщество обратить внимание на miller.
[External Link Removed for Guests]

Re: Прочие базы данных

Добавлено: 16 сен 2024, 09:00
LibVik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 16:34 Так стояла задача скопировать ВСЕ файлы csv в один.
Моё замечание относительно размера было для FamilyTheRapy
А реализацию сортировки сделал бы через Total Commander
Найти с учётом текста, перенести в папку,
склейка / сopy *.csv all.csv /

Re: NationalPublicData

Добавлено: 16 сен 2024, 10:36
LibVik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 У меня NPD в сжатом виде - 50 Gb (files NPD202401.7z, NPD202402.7z), в распакованном - 284 Gb (files ssn.txt, ssn2.txt).
это уже подчищенная версия
в оригинале выгдядит так
► Показать
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 А как такое чистить?
удалить индекс, слить в одну строку по SSN, удалить повтор имени
там Unique SSN: 239545219
Unique SSN: 159658869

Re: Прочие базы данных

Добавлено: 16 сен 2024, 12:10
Burg0mister
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]10 сен 2024, 22:41 При таких объёмах файлов, лимитирующим фактором будет скорость чтения-записи на диск - нужен быстрый твердотельный винт.

Если сливать адреса вместе, могут очень длинные строки получиться:
Спойлер
ID,firstname,lastname,middlename,name_suff,dob,address,city,county_name,st,zip,phone1,aka1fullname,aka2fullname,aka3fullname,StartDat,alt1DOB,alt2DOB,alt3DOB,ssn
25717441,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHTS DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294620,EDWARD,FOMENKO,G,,19390901,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294621,EDWARD,FOMENKO,G,,19390901,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294622,EDWARD,FOMENKO,G,,19390901,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
28294623,EDWARD,FOMENKO,G,,19390901,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
28294624,EDWARD,FOMENKO,G,,19390901,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
30116342,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087779658,,,,,,,,518398509
30116343,EDWARD,FOMENKO,G,,19700701,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,8167417598,,,,,,,,518398509
33592521,EDWARD,FOMENKO,G,,,213 E 3 RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33875737,EDWARD,FOMENKO,G,,19700701,800 S MAJESTIC VIEW DR,POST FALLS,KOOTENAI,ID,83854,2087732446,,,,,,,,518398509
33988293,EDWARD,FOMENKO,G,,,701 S RIVER HEIGHT DR,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988294,EDWARD,FOMENKO,G,,,PO BOX 1241,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988295,EDWARD,FOMENKO,G,,,PO BOX 2301,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509
33988296,EDWARD,FOMENKO,G,,,213 E 3RD AVE,POST FALLS,KOOTENAI,ID,83854,,,,,,,,,518398509
33988297,EDWARD,FOMENKO,G,,,831 E MILES AVE,HAYDEN,KOOTENAI,ID,83835,,,,,,,,,518398509

15 адресов, 3 телефона (2087779658, 8167417598, 2087732446), 2 даты рождения (19390901, 19700701), 1 SSN.
Если не загонять текст в базу, можно использовать поиск в консоли, например:
find ",JOHN,RIPPER," ssn.txt > output.txt
(При установки NTFS сжатия, занимаемый размер текстовых файлов на диске уменьшается раза в полтора.)

в линукс можно попробовать ещё так:
7z e -so NPD202401.7z -p'[External Link Removed for Guests]' 2>/dev/null | rg -i ",JOHN,RIPPER," > search.txt
Приветствую! Да это понятно, что можно и ГРЕП использовать, и есть куча софта для создания нереляционной СУБД на коленке, как ведомственные так и свободные программы со своими плюсами и минусами. Однако если не чистить - объемы получаются огромные, это надо прямиком по США работать чтобы такое хранить иначе никаких запасов дисков не хватит. Да и десяток таких баз без чистки превратит со временем поиск в очень томительное и рутинное занятие.
С замечанием на счет диска согласен, а еще оперативки много надо, остальное менее критично даже при использовании сложных регулярных выражений.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]09 сен 2024, 18:47 Достаточно выборочно сверить с Московсим ДИТом...
Ходят слухи, что существует две версии ДИТ, здорового человека и больная. Где-то в Березах выкладывали обновленную версию, но руки проверить еще не дошли. Ставшая пабликом ранее версия была с искажениями, не ориентируйся на нее. Я тоже так пару раз пролетел с поиском по этой базе, хотя на этапе конвертирования сверял и так удачно попалось видимо, что несколько строк было верных.
Похоже там не все номера попортили, а как уже бывало с другими, например только 6 поменяли на 3.
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]06 сен 2024, 07:25 На один из теневых форумов выложили базу профилей соцсети ВКонтакте и назвали это "крупной утечкой данных". 🤦‍♂️🤣

На самом деле ни о какой утечке данных речь, конечно, не идет. Выложенная база содержит информацию, полученную с помощью запросов к официальному API социальной сети, а не в результате ее взлома. 🤷‍♂️

Всего в файле 390,425,718 строк, содержащих: имя/фамилию (так, как указано в профиле), ссылку на фотографию, пол, идентификатор профиля и город/страну (если указано в профиле). Вся эта информация является публично доступной и пользователи сами разместили ее у себя в открытых профилях.

Утверждается, что данные собраны в сентябре 2024.
Скрытый текст
Парсинг очень полезный, пригодится, спасибо! Но хочу отметить что данные там примерно за 2018-2019 год, нашел аккаунты, которые с тех пор были удалены, и аватарки там сохранены как раз плюс минус тех времен.

Возможно jewibev прав и это даже 2017

Re: Прочие базы данных

Добавлено: 17 сен 2024, 15:44
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 09:00
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]15 сен 2024, 16:34 Так стояла задача скопировать ВСЕ файлы csv в один.
Моё замечание относительно размера было для FamilyTheRapy
А реализацию сортировки сделал бы через Total Commander
Найти с учётом текста, перенести в папку,
склейка / сopy *.csv all.csv /
Поиск в TotalCommander - удобная вещь, пользуюсь не только для нахождения текста, но и HEX-code в dll и exe для поиска сигнатур некоторых защит (FlexNET / FlexLM), с последующим пропатчиванием.
Findstr из комплекта Windows имеет возможность поиска строк по списку из файла (опция /G:файл_списка.txt).
Например, если хотим сделать выборку по всей Африке, в файл list.txt помещаем название всех стран Африки (например из вики) и запускаем:
findstr /M /G:list.txt *.csv > Africa.txt
В Africa.txt будет список всех файлов, в которых присутствует хотя бы одна строка из list.txt .

Re: Прочие базы данных

Добавлено: 17 сен 2024, 16:06
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 12:10
Приветствую! ...
Однако если не чистить - объемы получаются огромные, это надо прямиком по США работать чтобы такое хранить иначе никаких запасов дисков не хватит.
Приветствую!
Да уж, действительно, дисков не напасёшься:
- 5 лет назад купил 4 TB, думал, надолго хватит - ЩАЗ ...
- в начале года купил 16 TB, думал, надолго хватит - ЩАЗ ...
Да и нужда в база по usa - сомнительна (для меня - вообще одноразовая:
найти десяток однокурсников и десяток знакомых по аспирантуре, ставших колбасными эмигрантами).

Re: NationalPublicData

Добавлено: 17 сен 2024, 16:09
SDFnik
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]16 сен 2024, 10:36
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 У меня NPD в сжатом виде - 50 Gb (files NPD202401.7z, NPD202402.7z), в распакованном - 284 Gb (files ssn.txt, ssn2.txt).
это уже подчищенная версия
в оригинале выгдядит так
► Показать
[Local Link Removed for Guests] писал(а): [Local Link Removed for Guests]12 сен 2024, 20:05 А как такое чистить?
удалить индекс, слить в одну строку по SSN, удалить повтор имени
там Unique SSN: 239545219
Unique SSN: 159658869
Да, Вы правы, это база чищенная, полная - мне попадалась 100 Gb сжатая.
Но зачем нужна полная, если есть почищенная (другой вопрос - как почищена и от чего).
Да и с базой непонятки:
Спойлер
...
Специалисты Atlas Data Privacy Corp. проанализировали украденные данные и сообщили, что в них содержится 272 миллиона уникальных SSN. Большинство записей включают имя, SSN и домашний адрес, причем 26% записей также содержат номера телефонов. Интересно, что значительная часть данных относится к умершим людям, причем средний возраст пострадавших – 70 лет.
В июле утекшие данные стали доступны широкому кругу лиц, и NPD уведомила клиентов о компрометации данных. Особое внимание привлекло то, что в утечке не содержались данные тех людей, которые ранее отказались от сбора и обработки данных, что подтвердило легальность действий компании. NPD утверждает, что сотрудничает с правоохранительными органами и проводит расследование, обещая уведомить пользователей о дальнейших изменениях в ситуации.
Несмотря на всю серьёзность инцидента, точное происхождение данных остаётся неясным. Хакеры, участвовавшие в распространении информации, регулярно публиковали новые фрагменты данных, но общий объём данных не соответствовал заявленным 4 ТБ. Кроме того, обнаружились совпадения с предыдущими утечками данных из других источников, что вызвало подозрения, что часть данных могла быть собрана из различных источников, включая NPD.
Особенно тревожным оказалось то, что некоторые данные содержали недостоверную информацию. Например, в базе данных присутствовали записи с неправильными датами рождения и несоответствующими именами. Это создавало дополнительные сложности для тех, кто пытался оценить масштабы утечки и её последствия.
...
Подробнее: [External Link Removed for Guests]