ຄວາມແຕກຕ່າງລະຫວ່າງ Big Data ແລະນັກພັດທະນາແລະຜູ້ບໍລິຫານຂອງ Hadoop ແມ່ນຫຍັງ?


ຕອບ 1:

ທ່ານບໍ່ສາມາດປຽບທຽບຂໍ້ມູນໃຫຍ່ແລະ Hadoop ໄດ້ເພາະວ່າຂໍ້ມູນໃຫຍ່ແມ່ນເປັນປັນຫາແລະວິທີແກ້ໄຂທີ່ໃຫ້ໂດຍ Hadoop ສຳ ລັບມັນ. ນັກພັດທະນາ Hadoop ແລະຜູ້ບໍລິຫານ Hadoop ແມ່ນເອກະສານຈາກ Hadoop.

Big Data ແມ່ນການລວບລວມຂໍ້ມູນຢ່າງຫຼວງຫຼາຍເພາະວ່າຊື່ນັ້ນ ໝາຍ ເຖິງ "BIG DATA". ມັນບໍ່ສາມາດປຸງແຕ່ງໄດ້ໂດຍໃຊ້ວິທີການແບບ ທຳ ມະດາ, ເພາະວ່າການຜະລິດຂໍ້ມູນສ່ວນໃຫຍ່ເກີດຂື້ນໃນຮູບແບບທີ່ບໍ່ມີໂຄງສ້າງ. Hadoop ໄດ້ອອກມາເປັນການແກ້ໄຂບັນຫານີ້.

ດັ່ງນັ້ນພວກເຮົາຈຶ່ງແຈ້ງໃຫ້ພວກເຮົາຊາບເປັນລາຍລະອຽດກ່ຽວກັບ Big Data ແລະ Hadoop, ເພື່ອໃຫ້ທ່ານສາມາດເບິ່ງພາບລວມຂອງ Big Data ແລະ Hadoop ໄດ້.

ອີງຕາມ Gartner, ຂໍ້ມູນໃຫຍ່ແມ່ນຊຸດຂໍ້ມູນທີ່ມີຂໍ້ມູນ ຈຳ ນວນຫລາຍ, ຄວາມໄວສູງແລະຄວາມຫຼາກຫຼາຍທີ່ແຕກຕ່າງກັນ, ເຊິ່ງຮຽກຮ້ອງໃຫ້ມີເວທີທີ່ມີນະວັດຕະ ກຳ ເພື່ອການປັບປຸງຄວາມເຂົ້າໃຈແລະການຕັດສິນໃຈ.

ປະລິມານທີ່ເອີ້ນວ່າຂະ ໜາດ ຂອງຂໍ້ມູນ

ຄວາມໄວ ໝາຍ ເຖິງການວິເຄາະຂໍ້ມູນສະຕຣີມ

ແນວພັນທີ່ເອີ້ນວ່າແບບຟອມຂໍ້ມູນ

  • ຄຳ ຖາມທີສອງແມ່ນວ່າເປັນຫຍັງພວກເຮົາຄວນຮຽນຮູ້ຂໍ້ມູນໃຫຍ່

ຂໍ້ມູນໃຫຍ່ແມ່ນວິທີການແກ້ໄຂບັນຫາການຈັດການແລະການປຸງແຕ່ງຂໍ້ມູນທີ່ບໍ່ໄດ້ຮັບການແກ້ໄຂ. ອຸດສາຫະ ກຳ ທີ່ຜ່ານມາໄດ້ຈັດການກັບບັນຫາດັ່ງກ່າວ. ດ້ວຍການວິເຄາະຂໍ້ມູນໃຫຍ່, ທ່ານສາມາດເປີດເຜີຍຮູບແບບທີ່ເຊື່ອງໄວ້, ຮູ້ມຸມມອງ 360 ອົງສາຂອງລູກຄ້າແລະເຂົ້າໃຈຄວາມຕ້ອງການຂອງພວກເຂົາໄດ້ດີຂື້ນ.

ເບິ່ງວິດີໂອຂ້າງລຸ່ມນີ້ ສຳ ລັບການແນະ ນຳ ກ່ຽວກັບຂໍ້ມູນໃຫຍ່.

ຖ້າທ່ານສົນໃຈທີ່ຈະຮູ້ປະຫວັດຂອງຂໍ້ມູນໃຫຍ່, ກົດລິງຂ້າງລຸ່ມນີ້ ສຳ ລັບປະຫວັດຂອງຂໍ້ມູນໃຫຍ່

ປະຫວັດຂໍ້ມູນໃຫຍ່

ດຽວນີ້ໄປກັບ Hadoop,

Hadoop ແມ່ນເຄື່ອງມືທີ່ເປີດເຜີຍຈາກ ASF. HDFS ເກັບຮັກສາປະລິມານຂໍ້ມູນຢ່າງຫຼວງຫຼາຍ.

ຕອນນີ້ໃຫ້ເຮົາເບິ່ງວ່າ HDFS ສະ ໜອງ ການແກ້ໄຂແນວໃດ

ໃນ Hadoop, HDFS ແບ່ງປັນເອກະສານຂະ ໜາດ ໃຫຍ່ອອກເປັນທ່ອນນ້ອຍເອີ້ນວ່າທ່ອນໄມ້. ນີ້ແມ່ນຫົວ ໜ່ວຍ ນ້ອຍທີ່ສຸດຂອງຂໍ້ມູນໃນລະບົບແຟ້ມເອກະສານ. ພວກເຮົາ (ລູກຄ້າແລະຜູ້ບໍລິຫານ) ບໍ່ມີການຄວບຄຸມສະຖານທີ່ຄ້າຍຄື block. Namenode ຕັດສິນໃຈທຸກຢ່າງ.

HDFS ເກັບມ້ຽນເອກະສານແຕ່ລະອັນເປັນທ່ອນໄມ້. ເຖິງຢ່າງໃດກໍ່ຕາມ, ຂະ ໜາດ ບລັອກໃນ HDFS ແມ່ນໃຫຍ່ຫຼາຍ. ຂະ ໜາດ ມາດຕະຖານຂອງທ່ອນໄມ້ HDFS ແມ່ນ 128 MB, ເຊິ່ງທ່ານສາມາດ ກຳ ນົດຕາມຄວາມຕ້ອງການຂອງທ່ານ. ທ່ອນໄມ້ທັງ ໝົດ ຂອງເອກະສານແມ່ນມີຂະ ໜາດ ດຽວກັນ, ຍົກເວັ້ນທ່ອນໄມ້ສຸດທ້າຍ, ເຊິ່ງອາດຈະມີຂະ ໜາດ ດຽວກັນຫຼືນ້ອຍກວ່າ. ໄຟລ໌ໄດ້ຖືກແບ່ງອອກເປັນທ່ອນ 128MB ແລ້ວເກັບໄວ້ໃນລະບົບແຟ້ມເອກະສານ Hadoop. ຄໍາຮ້ອງສະຫມັກ Hadoop ແມ່ນຮັບຜິດຊອບໃນການແຈກຢາຍຂໍ້ມູນບລັອກຜ່ານຂໍ້ມູນຫຼາຍໆຂໍ້.

ສົມມຸດວ່າໃນຕົວຢ່າງຂ້າງເທິງທີ່ມີຂະ ໜາດ ໄຟລ໌ 518 MB ພວກເຮົາໃຊ້ການຕັ້ງຄ່າມາດຕະຖານທີ່ມີຂະ ໜາດ ບລັອກ 128 MB. ຈາກນັ້ນກໍ່ສ້າງ 5 ທ່ອນ, 4 ທ່ອນ ທຳ ອິດແມ່ນຂະ ໜາດ 128 MB, ແຕ່ທ່ອນໄມ້ສຸດທ້າຍມີຂະ ໜາດ ພຽງແຕ່ 6 MB. ຕົວຢ່າງຂ້າງເທິງສະແດງໃຫ້ເຫັນວ່າມັນບໍ່ ຈຳ ເປັນ ສຳ ລັບ HDFS ທີ່ຈະເກັບທຸກເອກະສານທີ່ບັນທຶກໄວ້ໃນຫລາຍໆອັນທີ່ແນ່ນອນຂອງຂະ ໜາດ ບລັອກທີ່ ກຳ ນົດໄວ້ 128 MB, 256 MB ແລະອື່ນໆ. ແມ່ນມີຄວາມ ຈຳ ເປັນ

ຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບ HDFS ສາມາດເບິ່ງໄດ້ຕາມລິງຕໍ່ໄປນີ້:

HDFS - ຄູ່ມືທີ່ສົມບູນ

ຕອນນີ້ໃຫ້ຍ້າຍໄປທີ່ນັກພັດທະນາ Hadoop ແລະຜູ້ບໍລິຫານ Hadoop.

ນັກພັດທະນາ Hadoop

ໜ້າ ວຽກຂອງນັກພັດທະນາ Hadoop ແມ່ນການຂຽນໂປແກຼມຕ່າງໆຕາມການອອກແບບຂອງລະບົບແລະມີຄວາມຮູ້ຄວາມສາມາດໃນການຂຽນລະຫັດແລະການຂຽນໂປແກຼມ. ວຽກງານຂອງນັກພັດທະນາ Hadoop ແມ່ນຄ້າຍຄືກັບວຽກຂອງນັກພັດທະນາຊອບແວ, ແຕ່ແມ່ນຢູ່ໃນພື້ນທີ່ຂໍ້ມູນໃຫຍ່. ວຽກງານຂອງນັກພັດທະນາ Hadoop ຍັງປະກອບມີຄວາມເຂົ້າໃຈແລະການພັດທະນາວິທີແກ້ໄຂບັນຫາ, ການອອກແບບແລະສະຖາປັດຕະຍະ ກຳ, ແລະຄວາມສາມາດໃນການບັນທຶກ.

ຜູ້ບໍລິຫານ Hadoop

ຄວາມຮັບຜິດຊອບຕໍ່ວຽກງານບໍລິຫານຂອງ Hadoop ແມ່ນຄ້າຍຄືກັບຄວາມຮັບຜິດຊອບຂອງຜູ້ເບິ່ງແຍງລະບົບ. ພາລະບົດບາດແລະຄວາມຮັບຜິດຊອບຂອງຜູ້ບໍລິຫານ Hadoop ລວມມີການຕັ້ງກຸ່ມກຸ່ມ Hadoop ແລະການສະ ໜັບ ສະ ໜູນ ພວກມັນ, ການຟື້ນຟູແລະການຄຸ້ມຄອງພວກມັນ. ຜູ້ບໍລິຫານ Hadoop ຕ້ອງການຄວາມຮູ້ທີ່ດີກ່ຽວກັບລະບົບຮາດແວແລະສະຖາປັດຕະຍະ ກຳ Hadoop.

ທ່ານສາມາດຊອກຫາໂປຣໄຟລ໌ Hadoop ເພີ່ມເຕີມໄດ້ທີ່ລິ້ງຕໍ່ໄປນີ້:

ຂົງເຂດທີ່ແຕກຕ່າງກັນໃນ Hadoop ແລະຂົງເຂດຄວາມຮັບຜິດຊອບຂອງມັນ

ຫວັງວ່າຂ້ອຍຈະຕອບ ຄຳ ຖາມຂອງເຈົ້າ.


ຕອບ 2:

ຄໍາອະທິບາຍຕໍ່ໄປນີ້ໃຫ້ຂໍ້ມູນກ່ຽວກັບບົດບາດຂອງນັກພັດທະນາແລະຜູ້ບໍລິຫານຂອງ Hadoop.

ນັກພັດທະນາ Big Data Hadoop:

ນັກພັດທະນາ Hadoop ມີຄວາມຮັບຜິດຊອບຕໍ່ການເຂົ້າລະຫັດ / ການຂຽນໂປແກຼມຕົວຈິງຂອງການ ນຳ ໃຊ້ Hadoop. ພາລະບົດບາດນີ້ແມ່ນມີຄວາມ ໝາຍ ຄ້າຍຄືກັບຜູ້ພັດທະນາຊອບແວ. ໝາຍ ເຖິງບົດບາດດຽວກັນ, ແຕ່ຢູ່ໃນໂດເມນຂໍ້ມູນໃຫຍ່. ສ່ວນປະກອບຂອງ Hadoop ແມ່ນ MapReduce, ໃນນັ້ນທ່ານຕ້ອງຂຽນໂປແກຼມ Java. ຖ້າທ່ານມີຄວາມຮູ້ພື້ນຖານກ່ຽວກັບ Java, ນີ້ຄວນຈະພຽງພໍ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ຖ້າທ່ານບໍ່ມີຄວາມຮູ້ກ່ຽວກັບ Java, ແຕ່ມີຄວາມຮູ້ກ່ຽວກັບພາສາການຂຽນໂປຼແກຼມອື່ນ, ທ່ານກໍ່ສາມາດຈັບມືໄດ້ໄວ.

ທັກສະທີ່ ຈຳ ເປັນ:

  • ມີຄວາມສາມາດໃນການຂຽນວຽກ MapReduce ມີປະສົບການໃນການຂຽນອັກສອນພາສາລາແຕັງ ສຳ ລັບປະສົບການຕົວຈິງກັບ HiveQL ຄວາມຮູ້ກ່ຽວກັບເຄື່ອງເຮັດວຽກ / ຕາຕະລາງເວລາເຊັ່ນ OozieBig Data Hadoop Administrator:

ຜູ້ບໍລິຫານ Hadoop ມີ ໜ້າ ທີ່ຮັບຜິດຊອບໃນການຈັດຕັ້ງປະຕິບັດແລະການຄຸ້ມຄອງໂຄງລ່າງຂອງໂຄງການ Hadoop ຢ່າງຕໍ່ເນື່ອງ. ພາລະບົດບາດຮຽກຮ້ອງໃຫ້ມີການປະສານງານກັບທີມງານ Systems Engineering ເພື່ອສະ ເໜີ ແລະ ນຳ ໃຊ້ສະພາບແວດລ້ອມຮາດແວແລະຊອບແວ ໃໝ່ ທີ່ ຈຳ ເປັນ ສຳ ລັບ Hadoop ແລະເພື່ອຂະຫຍາຍສະພາບແວດລ້ອມທີ່ມີຢູ່.

ຮຽກຮ້ອງໃຫ້ມີການຮ່ວມມືກັບທີມງານຈັດສົ່ງຂໍ້ມູນເພື່ອຕັ້ງຜູ້ໃຊ້ Hadoop ໃໝ່. ວຽກນີ້ປະກອບມີການຕັ້ງຄ່າ Linux, ການຕັ້ງຄ່າຜູ້ອໍານວຍການ Kerberos, ແລະການທົດສອບການເຂົ້າເຖິງ HDFS, Hive, Pig, ແລະ MapReduce ສໍາລັບຜູ້ໃຊ້ໃຫມ່. ການ ບຳ ລຸງຮັກສາກຸ່ມແລະການສ້າງແລະການປົດລodeອກໂດຍໃຊ້ເຄື່ອງມືເຊັ່ນ Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Management ແລະເຄື່ອງມືອື່ນໆ.

ທັກສະທີ່ ຈຳ ເປັນ:

  • ການຈັດຕັ້ງປະຕິບັດແລະການບໍລິຫານຢ່າງຕໍ່ເນື່ອງຂອງພື້ນຖານໂຄງລ່າງ Hadoop. ການຮັກສາກຸ່ມ, ການສ້າງແລະການ ກຳ ຈັດຂໍ້ມູນໂດຍໃຊ້ເຄື່ອງມືເຊັ່ນ Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Management ແລະເຄື່ອງມືອື່ນໆ. ຈັດການແລະກວດກາເອກະສານບັນທຶກ Hadoop. ການຄຸ້ມຄອງແລະກວດສອບລະບົບແຟ້ມເອກະສານ. ການສະ ໜັບ ສະ ໜູນ ແລະຮັກສາ HDFS ການ ກຳ ນົດຄ່າຂອງລະບົບນິເວດຂອງ Hadoop ເຊັ່ນ: ໝູ, Hive, HBase, Oozie ແລະອື່ນໆ.

ຕອບ 3:

ສະບາຍດີ Shekhar,

ສຳ ລັບນັກພັດທະນາ Hadoop, ທ່ານຕ້ອງຂຽນລະຫັດໃນ Mapreduce ຫຼືສ້າງແບບສອບຖາມແລະອັກສອນລາຕິນໃນ Hive ຫຼື Pig.

ສຳ ລັບຜູ້ເບິ່ງແຍງລະບົບ, ທ່ານມີຂໍ້ຕ່າງໆໃນ Linux server ໃນໃຈແລະຈັດການວຽກ Mapreduce. ທ່ານຍັງຕ້ອງການຮັກສາຮາດແວມາດຕະຖານເພື່ອປະຕິບັດຂໍ້ມູນ Hadoop ທີ່ປະສົບຜົນ ສຳ ເລັດ.


ຕອບ 4:

ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະເຂົ້າໃຈວ່າຂໍ້ມູນໃຫຍ່ແລະ Hadoop ບໍ່ແມ່ນສິ່ງດຽວກັນ.

ຂໍ້ມູນໃຫຍ່ແມ່ນແນວຄວາມຄິດທີ່ວ່າ, ເນື່ອງຈາກປະລິມານທີ່ກວ້າງຂວາງແລະຊຸດຂໍ້ມູນທີ່ມີຢູ່, ຊ່ວຍໃຫ້ການຫັນເປັນບໍລິສັດ.

Hadoop ແມ່ນພື້ນຖານໂຄງລ່າງເຕັກໂນໂລຢີ ສຳ ລັບເກັບຮັກສາ, ຄຸ້ມຄອງແລະວິເຄາະຂໍ້ມູນ ຈຳ ນວນຫຼວງຫຼາຍນີ້.

ຄວາມແຕກຕ່າງລະຫວ່າງນັກພັດທະນາ Hadoop (ຫລືຕົວປ່ຽນແປງການຄ້າອື່ນໆຂອງ Hadoop) ແລະຜູ້ເບິ່ງແຍງລະບົບແມ່ນຄືກັນກັບນັກພັດທະນາຟັງແລະຜູ້ເບິ່ງແຍງຟັງ. ນັກພັດທະນາຈະສ້າງແອັບພລິເຄຊັນແລະຕົວຢ່າງທີ່ຕ້ອງການ ສຳ ລັບພື້ນຖານໂຄງລ່າງຂໍ້ມູນໃຫຍ່ແລະດ້ານການບໍລິຫານໃນອົງກອນ. ນີ້ຈະປະກອບມີການເຂົ້າລະຫັດແລະເຮັດວຽກຮ່ວມກັບ MapReduce, Hive, Sqoop, Oozie, Spark, ແລະອື່ນໆ. ອີກດ້ານ ໜຶ່ງ ຜູ້ບໍລິຫານຈະຈັດຕັ້ງປະຕິບັດ, ຮັກສາແລະຕິດຕາມພື້ນຖານໂຄງລ່າງທີ່ ກຳ ລັງແລ່ນ, ຕັ້ງແລະ ນຳ ໃຊ້ເຄື່ອງມືແລະບັນຊີຕ່າງໆ, ການ ບຳ ລຸງຮັກສາ, ການຄຸ້ມຄອງກຸ່ມ, ການເພີ່ມປະສິດທິພາບແລະອື່ນໆ.

ຕິດຕໍ່ພວກເຮົາທີ່ [email protected] ສຳ ລັບຂໍ້ມູນເພີ່ມເຕີມ.